Страница 1 из 1

количество точек (наблюдений) для лог-модели?

Добавлено: 28 окт 2015, 09:31
xen87
Добрый день, возник такой вопрос.
Есть неоднородная территория на которой зафиксировано некоторое явление в виде множества фрагментов (полигонов).
Пытаемся понять - есть ли зависимость расположения данных фрагментов от конкретных условий территории.
Задумали использовать логистическую модель:
- заложить случайным образом N-ое количество точек по всей территории (1 точка = 1 наблюдение)
- обозначить точки с "явлением" за "1", без "явления" за "0" + снимаем атрибуты территории в каждой точке.
- задаем лог. модель

Код: Выделить всё

fit <- glm(out ~ a+b+c, my_df, family = 'binomial')
- сморим табл. предикторов (знак, значение и стат. значимость) и интрепретиуем их ...

Если все выше сказанное правомерно, то вопрос: по какому принципу закладывается количество точек?
Т.к. заложили 100 точек - получили одну "картину" предикторов, сложили 500 - иную. Как быть?

Re: количество точек (наблюдений) для лог-модели?

Добавлено: 28 окт 2015, 10:18
gamm
xen87 писал(а):Если все выше сказанное правомерно, то вопрос: по какому принципу закладывается количество точек?
Т.к. заложили 100 точек - получили одну "картину" предикторов, сложили 500 - иную. Как быть?
правильно формулировать задачу. Вы неявно предполагаете, что у вас зависимость однородна по всей территории, хотя это скорее всего не так (судя по вашему "как быть"). Можно добавить пространственный сплайн от координат для абсорбции всей необъясненной вашими факторами изменчивости, например использовать функцию gamm() пакета mgcv вместо glm(). Но для начала нужно посмотреть пространственное распределение пирсоновских остатков от вашей модели, как они распределены. В общем, применить стандартный протокол оценки адекватности модели - тогда будет примерно понятно, сколько и где нужно точек, чтобы получить представительную выборку.

Re: количество точек (наблюдений) для лог-модели?

Добавлено: 28 окт 2015, 12:09
xen87
gamm, спасибо за ответ!
gamm писал(а): Вы неявно предполагаете, что у вас зависимость однородна по всей территории
Да, есть такое дело.
Но для начала нужно посмотреть пространственное распределение пирсоновских остатков от вашей модели, как они распределены.
- А есть ли подробная инструкция типа - 'step-by-step' как это можно сделать? Быть может разобранный пример имеется?
Можно добавить пространственный сплайн от координат для абсорбции всей необъясненной вашими факторами изменчивости, например использовать функцию gamm() пакета mgcv вместо glm()
- а нет ли наглядного примера с небольшой теорией и практикой исполнения?

П.С. чем проще объяснение, тем больше шанс, что я хоть что-то пойму ...

Re: количество точек (наблюдений) для лог-модели?

Добавлено: 28 окт 2015, 12:49
gamm
Смогу не раньше чем через неделю ...

[ Сообщение с мобильного устройства ]