R: Нормирование данных перед MCLUST-анализом
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
R: Нормирование данных перед MCLUST-анализом
Просветите как корректно нормировать (стандартизировать) данные перед MCLUST-анализом в R, да и, собственно, перед др. видами анализа в R и ,собственно, статистике... Где почитать? А, м.б., MCLUST и сам предварительно нормирует данные?
-
- Гуру
- Сообщения: 4056
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1054
- Ваше звание: программист
- Откуда: Казань
Re: R: Нормирование данных перед MCLUST-анализом
.
Последний раз редактировалось gamm 21 авг 2015, 10:45, всего редактировалось 1 раз.
-
- Гуру
- Сообщения: 4056
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1054
- Ваше звание: программист
- Откуда: Казань
Re: R: Нормирование данных перед MCLUST-анализом
поскольку это Finite Gaussian mixture modeling, то он сам все нормализует посредством вычисления ковариационной матрицы. Но распределение предполагается нормальным, поэтому нужно поизучать данные, и если преобразование не нормальное, то привести его хотя бы к симметричному, стандартный вид преобразования - типа log(a+b*X), sqrt(X), Box-Cox, и т.д. Имейте в виде, что нужно симметризовать не распределение всей выборки, а внутри-классовое. Полезно также убрать сильно коррелированные переменные, поизучав выборку каким-ни vif().nickleb писал(а):Просветите как корректно нормировать (стандартизировать) данные перед MCLUST-анализом в R, да и, собственно, перед др. видами анализа в R и ,собственно, статистике... Где почитать? А, м.б., MCLUST и сам предварительно нормирует данные?
нормализация для других видов сильно зависит от видов
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: R: Нормирование данных перед MCLUST-анализом
а операция scale во второй строке (перед) Mclust требуется иль нет?:gamm писал(а):поскольку это Finite Gaussian mixture modeling, то он сам все нормализует посредством вычисления ковариационной матрицы. Но распределение предполагается нормальным, поэтому нужно поизучать данные, и если преобразование не нормальное, то привести его хотя бы к симметричному, стандартный вид преобразования - типа log(a+b*X), sqrt(X), Box-Cox, и т.д. Имейте в виде, что нужно симметризовать не распределение всей выборки, а внутри-классовое. Полезно также убрать сильно коррелированные переменные, поизучав выборку каким-ни vif().nickleb писал(а):Просветите как корректно нормировать (стандартизировать) данные перед MCLUST-анализом в R, да и, собственно, перед др. видами анализа в R и ,собственно, статистике... Где почитать? А, м.б., MCLUST и сам предварительно нормирует данные?
нормализация для других видов сильно зависит от видов
Код: Выделить всё
Data_TS <- read.table (file_TS,sep=",",header=TRUE)
Scale_Data_TS <- scale(Data_TS)
DF_MCLUST <- Mclust(Scale_Data_TS)
-
- Гуру
- Сообщения: 4056
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1054
- Ваше звание: программист
- Откуда: Казань
Re: R: Нормирование данных перед MCLUST-анализом
Вроде не требуется, но повысит численную устойчивость, если дисперсии очень разные. Поэтому обычно делают.
[ Сообщение с мобильного устройства ]
[ Сообщение с мобильного устройства ]
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: R: Нормирование данных перед MCLUST-анализом
Спасибоgamm писал(а):Вроде не требуется, но повысит численную устойчивость, если дисперсии очень разные. Поэтому обычно делают.
[ Сообщение с мобильного устройства ]
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: R: Нормирование данных перед MCLUST-анализом
Кто пользовался, кто может пояснить, что за условия по лицензии для MCLUST?
https://els.comotion.uw.edu/express_lic ... ies/mclust
И по лицензиям GPL 2, GPL 3 - доходчиво, если кто разбирался?
https://els.comotion.uw.edu/express_lic ... ies/mclust
И по лицензиям GPL 2, GPL 3 - доходчиво, если кто разбирался?
-
- Гуру
- Сообщения: 4056
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1054
- Ваше звание: программист
- Откуда: Казань
Re: R: Нормирование данных перед MCLUST-анализом
учтите, что эта штука model based, так что вы еще и форму кластеров задавать (перебирать) должны, и смотреть на разные BIC/AIC, и на оценку попадания в 95% "огурец". В общем, дел много
поэтому лучше сначала каким-нибудь адаптивным методом (из общедоступных - SOM) посмотреть, как выборка устроена, чтобы что-то предполагать.
А лицензия всегда написана в файле DESCRIPTION, который лежит в пакете, в данном случае любая >=2
поэтому лучше сначала каким-нибудь адаптивным методом (из общедоступных - SOM) посмотреть, как выборка устроена, чтобы что-то предполагать.
А лицензия всегда написана в файле DESCRIPTION, который лежит в пакете, в данном случае любая >=2
License: GPL (>= 2)
URL: http://www.stat.washington.edu/mclust/
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: R: Нормирование данных перед MCLUST-анализом
Код: Выделить всё
Ошибка в plot.new() : figure margins too large
скрипт:
Код: Выделить всё
library(mclust)
workdir <- "F:/Worker_2015/_for_R_CRAN/_Waters"
setwd(workdir)
FileMaska = "EVRO_AMER_TS_2008_year.csv"
ListFiles <- list.files(workdir, pattern=FileMaska, full.names=TRUE)
ListFiles
ListShortFiles <- sub(workdir,"",ListFiles)
ListShortFiles <- sub("/","",ListShortFiles)
ListShortFiles
cntListFiles <- length(ListShortFiles)
cntListFiles
for(j in 1:cntListFiles)
{
file_TS <- ListShortFiles[j]
file_after_clust <- paste("Clust_", file_TS, sep="")
file_emf <- paste("Clust_", file_TS, sep="")
file_emf <- sub(".csv", ".emf", file_emf)
TempSali <- read.table (file_TS,sep=",",header=TRUE)
head (TempSali,3)
#TempSaliModel <- mclustModel(TempSali,mclustBIC(TempSali))
TempSaliModel <- Mclust(TempSali)
mclust2Dplot(TempSali, parameters=TempSaliModel$parameters, z=TempSaliModel$z, what = "classification", identify = TRUE)
win.metafile(file_emf)
TempSali$CLUST <- TempSaliModel$classification
TempSali$CLUST
write.csv(TempSali[,c("CLUST","t_pote","s")],
file=file_after_clust,
row.names=TRUE,
quote=FALSE)
dev.off()
}
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: R: Нормирование данных перед MCLUST-анализом
Вы об этом package'е ?:gamm писал(а): ...
поэтому лучше сначала каким-нибудь адаптивным методом (из общедоступных - SOM) посмотреть, как выборка устроена, чтобы что-то предполагать.
...
www.r-bloggers.com/self-organising-maps ... n-using-r/
-
- Гуру
- Сообщения: 4056
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1054
- Ваше звание: программист
- Откуда: Казань
Re: R: Нормирование данных перед MCLUST-анализом
можно и им (я своим пользуюсь, на С++). Но лучше красить соединяющие линии, чтобы кластеры было видно.nickleb писал(а):Вы об этом package'е ?:
-
- Гуру
- Сообщения: 964
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: R: Нормирование данных перед MCLUST-анализом
а GeoSOM ещё есть какой-то suite... у меня есть DateTime/Lon/Lat/Depth/Var1/Var2...gamm писал(а):можно и им (я своим пользуюсь, на С++). Но лучше красить соединяющие линии, чтобы кластеры было видно.nickleb писал(а):Вы об этом package'е ?:
-
- Гуру
- Сообщения: 4056
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1054
- Ваше звание: программист
- Откуда: Казань
Re: R: Нормирование данных перед MCLUST-анализом
я особо не вникал, предпочитаю сам делать, где могу, чем кнопки давить ...nickleb писал(а):а GeoSOM ещё есть какой-то suite... у меня есть DateTime/Lon/Lat/Depth/Var1/Var2...
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 36 гостей