Страница 1 из 1
Кластерный анализ водных масс. DataMining модули
Добавлено: 16 окт 2014, 11:15
nickleb
Здравствуйте. Требуется кластерным анализом проанализировать-классифицировать водные массы арктических морей по температуре, солености, кислороду, кремнию... Кто имеет опыт с решением такой задачи в пакете R, в Python-библиотеках или в каких-нибудь др. DataMinig-модулях? Чем порекомендуете воспользоваться?
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 16 окт 2014, 16:15
gamm
nickleb писал(а):Здравствуйте. Требуется кластерным анализом проанализировать-классифицировать водные массы арктических морей по температуре, солености, кислороду, кремнию... Кто имеет опыт с решением такой задачи в пакете R, в Python-библиотеках или в каких-нибудь др. DataMinig-модулях? Чем порекомендуете воспользоваться?
для статистического лучше не использовать ничего, кроме R (все остальное - "костыли"), а DataMinig тут вообще ни причем.
если p - таблица с данными, то для начала пойдет следующий код
Код: Выделить всё
#=====================================================================================
# --- data sample
#=====================================================================================
p=data.frame(X1=rnorm(100),X2=rnorm(100),X3=rnorm(100),X4=rnorm(100),RowName=1:100)
#=====================================================================================
# --- Cluster
#=====================================================================================
p.names<-c("X1", "X2", "X3", "X4") # имена переменных
t<-scale(p[,p.names]) # масштабируем, чтобы влияние было примерно одинаковым.
# По уму требуется анализ гистограммы и преобразование к более-менее симметричному виду,
# для концентраций обычно логарифмирование, и т.д.
row.names(t)<-p$RowName # имена строк, можно 1:nrow(p)
p.dist<-dist(t)
p.clust<-hclust(p.dist,method="ward.D")
plot(p.clust,main="Кластерный анализ",cex=0.75,lwd=2)
#=====================================================================================
# --- PCA ----------------------------------------------------------------------------
#=====================================================================================
library(vegan)
x.names<-c("X1", "X2", "X3", "X4") # имена переменных
p.PCA<-rda(X=p[,x.names],scale=TRUE)
cur.scaling<-1
p.PCA.xy<-p.PCA$CA$u[,c("PC1","PC2")]
plot(p.PCA.xy,main="PCA",pch=20,cex=1.5)
text(p.PCA.xy,as.character(p$RowName),pos=4,cex=0.5)
а вообще - нужно разбираться, много зависит от количества и качества данных ...
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 16 окт 2014, 20:02
nickleb
спасибо, gamm... 2.15 или 3-ку уже ставить? что лучше с прицелом на "картирование", из R не выходя?
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 17 окт 2014, 04:10
gamm
nickleb писал(а):спасибо, gamm... 2.15 или 3-ку уже ставить?
зависит от глубины анализа, для упомянутых методов и 1.8.2 хватит
что лучше с прицелом на "картирование", из R не выходя?
смотря что имеется в виду. Если собственно анализ и подготовка данных, то все зависит от качества и количества данных, средства есть начиная с простых интерполяторов и регрессий, до пространственно-временных случайных полей с использованием R-INLA. А чтобы картинки раскрашивать, есть пакеты lattice, rgdal, maptools, shapfiles, sp (перечислено то, чем я карты отчетные рисовал в последний раз; есть и другие). А можно вывалить результат в файлы, и раскрашивать в любой ГИС - системе.
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 17 окт 2014, 12:28
nickleb
благодарю, gamm... ещё у Вас буду консультироваться по ходу дел...
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 10:31
nickleb
nickleb писал(а):...до пространственно-временных случайных полей с использованием R-INLA...
Уважаемый gamm, установил R-INLA... С какого tutorial'а порекомендуете начать?
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 13:23
gamm
nickleb писал(а):Уважаемый gamm, установил R-INLA... С какого tutorial'а порекомендуете начать?
первые три на
http://www.r-inla.org/examples/tutorials, скачать коды и выбрать что-то по вкусу. Но нужно понимать, что тут нет тьюторилов, которые описывают последовательность нажатия кнопок. Да и кнопок нет. И уж больно заковыристый у них способ задания модели (при отсутствии детального описания не только семантики, но и синтаксиса, может потребоваться некоторое время, чтобы что-то понять) ...
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 14:04
nickleb
приветствую Вас, gamm!.. спасибо... понимаю, что не всё так просто... помалёху будем разбираться и вкушать...
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 17:10
nickleb
gamm, я отработал с примером Вашего кода, приведённом в этом post'е... - огромное спасибо - всё отработало! а как мне получить в ASCII-файле дендрограмму кластерного анализа? да и график главных компонент?
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 17:38
nickleb
... график главных компонент - также в цифре вывести?
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 18:16
gamm
nickleb писал(а):gamm, я отработал с примером Вашего кода, приведённом в этом post'е... - огромное спасибо - всё отработало! а как мне получить в ASCII-файле дендрограмму кластерного анализа? да и график главных компонент?
я руками все обычно делал, внутри классов все лежит, что нужно. Но есть и какие-то готовые методы/функции, насколько я помню. Дендрограмму лучше нарисовать - я плохо представляю, как ее в текст вывести, а если классы нужно присвоить - там функция есть cutree(), задаете число классов. Главные компоненты тоже в классе лежат (в виде матрицы), а в пакете vegan разные рисовалки есть.
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 03 ноя 2014, 18:31
nickleb
gamm писал(а):[quote="nickleb"... там функция есть cutree(), задаете число классов. Главные компоненты тоже в классе лежат (в виде матрицы)....
спасибо. завтра буду разбираться. конечно, мощный и интуитивно понятный этот проект R... жаль, что раньше не пользовался... там ведь ещё и R-NCEP есть... хорошо, что меня просветили и дали рабочий пример!
Re: Кластерный анализ водных масс. DataMining модули
Добавлено: 04 ноя 2014, 14:13
nickleb
Cut a hierarchical cluster tree and write cluster identifiers to a text file.
http://rgm3.lab.nig.ac.jp/RGM/R_rdfile? ... .Rd&d=R_CC