Оптимальный sample size

Вопросы по статистическому пакету R. Не обязательно гео.
Ответить
Аватара пользователя
darsvid
Активный участник
Сообщения: 136
Зарегистрирован: 29 июн 2012, 12:40
Статьи: 5
Проекты: 1
Репутация: 88
Откуда: Kyїv, Ukraine
Контактная информация:

Оптимальный sample size

Сообщение darsvid » 27 янв 2017, 12:48

Есть большая таблица (~ 2 000 000 observations of 25 variables), полученная из серии растров: пиксель - наблюдение, значения растров - переменные (показывают, как меняется характеристика во времени). Планируется использовать часть этих данных в пакете kohonen.

На какие свойства данных нужно обратить внимание при формировании выборки и как обосновать размер (создать) наиболее репрезентативную выборку (чтобы в дальнейшем можно было экстраполировать полученные результаты на весь объем данных).

Интересуют как методические best practices (что почитать), так и конкретные функции и\или библиотеки

KolesovDmitry
Гуру
Сообщения: 809
Зарегистрирован: 22 авг 2007, 14:58
Статьи: 18
Проекты: 4
Репутация: 120
Откуда: Казань

Re: Оптимальный sample size

Сообщение KolesovDmitry » 27 янв 2017, 16:05

На самом деле меня тоже интересует этот вопрос и с удовольствием послушал бы ответы. Что же касается меня, то я обычно действую "на глаз" -- делаю выборку. строю по ней гистограмму и сравниваю с гистограммой исходной таблицы. Сравниваю визуально. Но для серьезных вещей такой подход вряд ли годится. Поэтому подождем, что скажут остальные.

Аватара пользователя
rhot
Гуру
Сообщения: 1559
Зарегистрирован: 25 янв 2011, 17:50
Статьи: 1
Репутация: 116
Ваше звание: доктор
Откуда: Архангельск

Re: Оптимальный sample size

Сообщение rhot » 25 мар 2017, 16:19

Нужно иметь представление о 3 вещах:
1) α - уровень значимости;
2) 1-β - мощность критерия;
3) d - величина эффекта, который хотите определить.

Потом размер выборки считается n = 2 * s^2 * t^2 / d^2,
где s^2 - дисперсия, вычисляется опытным путём или по уже опубликованным данным,
t - t-критерий Стьюдента, берётся из статистических таблиц на основании желаемого размера выборки, α и 1-β.

См. функцию stats::power.t.test()
___________(¯`·.¸(¯`·.¸ Scientia potentia est _/ {SILVA}:::{FOSS}:::{GIS} \_ Знание сила ¸.·´¯)¸.·´¯)___________

Ответить

Вернуться в «R»