Существенно различная форма кластеров (Евклид&Махаланобис)

Вопросы по статистическому пакету R. Не обязательно гео.
Ответить
womak
Участник
Сообщения: 83
Зарегистрирован: 13 окт 2006, 06:19
Репутация: 1
Откуда: Владивосток

Существенно различная форма кластеров (Евклид&Махаланобис)

Сообщение womak »

Есть некое распределение. Я выполнил в системе R кластерный анализ с различными мерами расстояний: Махаланобиса и квадрата Евклидова. Кластеризация выполнялась методом Варда. В результате получились существенно различные формы кластеров. Почему? Что не так с Махаланобисом?

Код: Выделить всё

x <- read.table('quake.dat', sep=' ', header= FALSE) # читаем данные 
x<-scale(x,center = TRUE, scale = TRUE) # центрируем, масштабируем

library (StatMatch)
d2 <- mahalanobis.dist(data.x=x, data.y=NULL, vc=NULL) # расчет дистанции
hcd <- hclust(as.dist(d2), 'ward') # кластеризация

gc(reset=TRUE) # оптимизация памяти
library (MASS) # пакет для записи матриц в файл
write.matrix(hcd$height, file='cl_mah.dat')
write.matrix(hcd$merge, file='cl_mah.txt')
plot(hcd)

rm(hcd); rm(d2);gc(reset=TRUE)# удаляем ненужные объекты и оптимизируем память

d <-  dist(x, method = "euclidean", diag = FALSE, upper = FALSE) # расчет дистанции
hc <- hclust(d^2, 'ward') # кластеризация
write.matrix(hc$height, file='cl_quake.dat')
write.matrix(hc$merge, file='cl_quake.txt')
plot(hcd)
Изображение

Данная тема является продолжением темы начатой тут и тут
gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Сообщение gamm »

womak писал(а):В результате получились существенно различные формы кластеров. Почему? Что не так с Махаланобисом?
все со всеми нормально, с чего вы решили, что они должны быть одинаковыми? Вы хоть формулы посмотрите, что ли. Махаланобис считает Евклидово расстояние между стандартизованными декорелированными величинами (что прекрасно видно на картинке). Если взять vegan, так там еще десятка два разных расстояний, тоже другие кластеры получатся. Другой вопрос, зачем вообще кластеризацию напускать на двумерные данные ... но это другой вопрос.
womak
Участник
Сообщения: 83
Зарегистрирован: 13 окт 2006, 06:19
Репутация: 1
Откуда: Владивосток

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Сообщение womak »

gamm писал(а):Махаланобис считает Евклидово расстояние между стандартизованными декорелированными величинами (что прекрасно видно на картинке).
разве функция scale не стандартизует выборку? Значит и евклидово расстояние вычисляется между стандартизованными величинами.
Другой вопрос, зачем вообще кластеризацию напускать на двумерные данные ... но это другой вопрос.
В анализе участвуют четыре переменные.
gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Сообщение gamm »

womak писал(а):
gamm писал(а):разве функция scale не стандартизует выборку?
Махалонобис - это фактически переход к главным компонентам, совпадет с Евклидовым только для ортогональных переменных . Посмотрите как это считается ...
womak
Участник
Сообщения: 83
Зарегистрирован: 13 окт 2006, 06:19
Репутация: 1
Откуда: Владивосток

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Сообщение womak »

gamm писал(а):Другой вопрос, зачем вообще кластеризацию напускать на двумерные данные ... но это другой вопрос.
Уважаемый, Gamm, а чем бы Вы анализировали двумерные данные такого рода?
gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Существенно различная форма кластеров (Евклид&Махаланоби

Сообщение gamm »

womak писал(а):
gamm писал(а): а чем бы Вы анализировали двумерные данные такого рода?
нужно задачу смотреть. Если мне не изменяет память, это землетрясения? тогда это дважды стохастический процесс (есть случайные ядра, вокруг которых вторичные события). И лучше брать гипоцентры, и перемасштабировать глубину.

Скорее всего, у японцев должны быть специфические модели. Можно посмотреть наших, кто на Дальнем Востоке, и европейцев (итальянцев). Если не лезть в заморочки с магнитудами, то можно попробовать стандартные средства в R (??"spatial point process" ??"spatial Cox process" ...)
Ответить

Вернуться в «R»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 4 гостя