Есть большая таблица (~ 2 000 000 observations of 25 variables), полученная из серии растров: пиксель - наблюдение, значения растров - переменные (показывают, как меняется характеристика во времени). Планируется использовать часть этих данных в пакете kohonen.
На какие свойства данных нужно обратить внимание при формировании выборки и как обосновать размер (создать) наиболее репрезентативную выборку (чтобы в дальнейшем можно было экстраполировать полученные результаты на весь объем данных).
Интересуют как методические best practices (что почитать), так и конкретные функции и\или библиотеки
Оптимальный sample size
- darsvid
- Активный участник
- Сообщения: 163
- Зарегистрирован: 29 июн 2012, 12:40
- Репутация: 115
- Откуда: Kyїv, Ukraine
- Контактная информация:
-
- Гуру
- Сообщения: 810
- Зарегистрирован: 22 авг 2007, 14:58
- Репутация: 123
- Откуда: Казань
Re: Оптимальный sample size
На самом деле меня тоже интересует этот вопрос и с удовольствием послушал бы ответы. Что же касается меня, то я обычно действую "на глаз" -- делаю выборку. строю по ней гистограмму и сравниваю с гистограммой исходной таблицы. Сравниваю визуально. Но для серьезных вещей такой подход вряд ли годится. Поэтому подождем, что скажут остальные.
- rhot
- Гуру
- Сообщения: 1727
- Зарегистрирован: 25 янв 2011, 17:50
- Репутация: 194
- Ваше звание: доктор
- Откуда: Архангельск
Re: Оптимальный sample size
Нужно иметь представление о 3 вещах:
1) α - уровень значимости;
2) 1-β - мощность критерия;
3) d - величина эффекта, который хотите определить.
Потом размер выборки считается n = 2 * s^2 * t^2 / d^2,
где s^2 - дисперсия, вычисляется опытным путём или по уже опубликованным данным,
t - t-критерий Стьюдента, берётся из статистических таблиц на основании желаемого размера выборки, α и 1-β.
См. функцию stats::power.t.test()
1) α - уровень значимости;
2) 1-β - мощность критерия;
3) d - величина эффекта, который хотите определить.
Потом размер выборки считается n = 2 * s^2 * t^2 / d^2,
где s^2 - дисперсия, вычисляется опытным путём или по уже опубликованным данным,
t - t-критерий Стьюдента, берётся из статистических таблиц на основании желаемого размера выборки, α и 1-β.
См. функцию stats::power.t.test()
___________(¯`·.¸(¯`·.¸ Scientia potentia est _/ {SILVA}:::{FOSS}:::{GIS} \_ Знание сила ¸.·´¯)¸.·´¯)___________
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 18 гостей