Форумы GIS-Lab.info

Есть большая таблица (~ 2 000 000 observations of 25 variables), полученная из серии растров: пиксель - наблюдение, значения растров - переменные (показывают, как меняется характеристика во времени). Планируется использовать часть этих данных в пакете kohonen.

На какие свойства данных нужно обратить внимание при формировании выборки и как обосновать размер (создать) наиболее репрезентативную выборку (чтобы в дальнейшем можно было экстраполировать полученные результаты на весь объем данных).

Интересуют как методические best practices (что почитать), так и конкретные функции и\или библиотеки

На самом деле меня тоже интересует этот вопрос и с удовольствием послушал бы ответы. Что же касается меня, то я обычно действую "на глаз" -- делаю выборку. строю по ней гистограмму и сравниваю с гистограммой исходной таблицы. Сравниваю визуально. Но для серьезных вещей такой подход вряд ли годится. Поэтому подождем, что скажут остальные.

Нужно иметь представление о 3 вещах:
1) α - уровень значимости;
2) 1-β - мощность критерия;
3) d - величина эффекта, который хотите определить.

Потом размер выборки считается n = 2 * s^2 * t^2 / d^2,
где s^2 - дисперсия, вычисляется опытным путём или по уже опубликованным данным,
t - t-критерий Стьюдента, берётся из статистических таблиц на основании желаемого размера выборки, α и 1-β.

См. функцию stats::power.t.test()

Форумы GIS-Lab.info

Оптимальный sample size

Оптимальный sample size

Re: Оптимальный sample size

Re: Оптимальный sample size