Страница 1 из 1

Существенно различная форма кластеров (Евклид&Махаланобис)

Добавлено: 15 фев 2012, 09:43
womak
Есть некое распределение. Я выполнил в системе R кластерный анализ с различными мерами расстояний: Махаланобиса и квадрата Евклидова. Кластеризация выполнялась методом Варда. В результате получились существенно различные формы кластеров. Почему? Что не так с Махаланобисом?

Код: Выделить всё

x <- read.table('quake.dat', sep=' ', header= FALSE) # читаем данные 
x<-scale(x,center = TRUE, scale = TRUE) # центрируем, масштабируем

library (StatMatch)
d2 <- mahalanobis.dist(data.x=x, data.y=NULL, vc=NULL) # расчет дистанции
hcd <- hclust(as.dist(d2), 'ward') # кластеризация

gc(reset=TRUE) # оптимизация памяти
library (MASS) # пакет для записи матриц в файл
write.matrix(hcd$height, file='cl_mah.dat')
write.matrix(hcd$merge, file='cl_mah.txt')
plot(hcd)

rm(hcd); rm(d2);gc(reset=TRUE)# удаляем ненужные объекты и оптимизируем память

d <-  dist(x, method = "euclidean", diag = FALSE, upper = FALSE) # расчет дистанции
hc <- hclust(d^2, 'ward') # кластеризация
write.matrix(hc$height, file='cl_quake.dat')
write.matrix(hc$merge, file='cl_quake.txt')
plot(hcd)
Изображение

Данная тема является продолжением темы начатой тут и тут

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Добавлено: 16 фев 2012, 07:01
gamm
womak писал(а):В результате получились существенно различные формы кластеров. Почему? Что не так с Махаланобисом?
все со всеми нормально, с чего вы решили, что они должны быть одинаковыми? Вы хоть формулы посмотрите, что ли. Махаланобис считает Евклидово расстояние между стандартизованными декорелированными величинами (что прекрасно видно на картинке). Если взять vegan, так там еще десятка два разных расстояний, тоже другие кластеры получатся. Другой вопрос, зачем вообще кластеризацию напускать на двумерные данные ... но это другой вопрос.

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Добавлено: 16 фев 2012, 07:32
womak
gamm писал(а):Махаланобис считает Евклидово расстояние между стандартизованными декорелированными величинами (что прекрасно видно на картинке).
разве функция scale не стандартизует выборку? Значит и евклидово расстояние вычисляется между стандартизованными величинами.
Другой вопрос, зачем вообще кластеризацию напускать на двумерные данные ... но это другой вопрос.
В анализе участвуют четыре переменные.

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Добавлено: 18 фев 2012, 15:48
gamm
womak писал(а):
gamm писал(а):разве функция scale не стандартизует выборку?
Махалонобис - это фактически переход к главным компонентам, совпадет с Евклидовым только для ортогональных переменных . Посмотрите как это считается ...

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Добавлено: 02 мар 2012, 15:14
womak
gamm писал(а):Другой вопрос, зачем вообще кластеризацию напускать на двумерные данные ... но это другой вопрос.
Уважаемый, Gamm, а чем бы Вы анализировали двумерные данные такого рода?

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Добавлено: 03 мар 2012, 15:25
gamm
womak писал(а):
gamm писал(а): а чем бы Вы анализировали двумерные данные такого рода?
нужно задачу смотреть. Если мне не изменяет память, это землетрясения? тогда это дважды стохастический процесс (есть случайные ядра, вокруг которых вторичные события). И лучше брать гипоцентры, и перемасштабировать глубину.

Скорее всего, у японцев должны быть специфические модели. Можно посмотреть наших, кто на Дальнем Востоке, и европейцев (итальянцев). Если не лезть в заморочки с магнитудами, то можно попробовать стандартные средства в R (??"spatial point process" ??"spatial Cox process" ...)