Есть задача: оценить влияние факторов A, B, C.. на параметр wbird (активность птиц).
То есть, как я рассуждаю, мне нужно использовать здесь какой-то регрессионный анализ, или регрессионную модель.
Выбрала функцию lm
Загружаю таблицу (где для каждого wbird дается соответствующие ему параметры A, B, C.. ). Технику получения такой таблицы не описываю, т.к. вопроса это не касается (коротко - было получено из ГИС-ДЗЗ обработки данных, сопряженной с данными учета птиц). Пишу формулу по lm:
Получаю результат:Data<-read.csv("C:\\***\\data.csv",sep=";")
> LM<-lm(wbird~hight+aspect+gradtemp_mymeth+gradtemp_mymethmod+surftemper+gradtemp_slope+slope_relief,data=Data)
> summary(LM)
Call:
lm(formula = wbird_dens ~ hight + aspect + gradtemp_mymeth +
gradtemp_mymethmod + surftemper + gradtemp_slope + slope_relief,
data = prud_800rm)
Residuals:
Min 1Q Median 3Q Max
-24.521 -6.677 -3.413 2.259 115.036
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.8442161 1.2403876 11.967 < 2e-16 ***
hight -0.0035498 0.0019312 -1.838 0.0661 .
aspect -0.0003861 0.0008062 -0.479 0.6320
gradtemp_mymeth -0.0069638 0.0115195 -0.605 0.5455
gradtemp_mymethmod 0.2001790 0.0167038 11.984 < 2e-16 ***
surftemper -0.1656850 0.0284116 -5.832 5.57e-09 ***
gradtemp_slope 3.4673017 0.1956511 17.722 < 2e-16 ***
slope_relief -0.0444852 0.0225034 -1.977 0.0481 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 11.89 on 20323 degrees of freedom
Multiple R-squared: 0.03589, Adjusted R-squared: 0.03556
F-statistic: 108.1 on 7 and 20323 DF, p-value: < 2.2e-16
Как я вижу, часть предикторов – значимо влияет на параметр wbirds.
Вопрос – что делать дальше? Как правильно доработать эту модель?
Как мне примерно объяснили (спросить подробнее не получилось) нужно смотреть на параметр «Intercept». Потом убирать по одному или попарно(?) входящие предикторы и смотреть, как этот Intercept изменился. Как именно это делать? Как именно оценивать Intercept ?
И также значение имеют показатели
на Adjusted R-squared: 0.03556 -- это можно приблизительно описать так: указанные предикторы объясняют вариацию зависимой переменной на 3,5%.
Это много или мало?
Я пробовала разбираться по хелпу в R, и по учебникам. Найти что-то, чтобы данный конкретный алгоритм стал понятным, пока не получилось.
Была бы безмерно благодарна за помощь в разборе этого примера. Или в подсказке – где про это можно прочитать, чтобы понять.
lm – выбран как один из возможных анализов, дающих такие результаты. Шире не ориентируюсь, но, предполагаю, что он может подходить не лучшим образом, и могут быть другие более подходящие варианты.