Пространственно-временной анализ 2-х переменных

Вопросы общего характера по ГИС и дистанционному зондированию, не связанные с конкретным ПО.
Ответить
Аватара пользователя
jerry-maori
Гуру
Сообщения: 585
Зарегистрирован: 22 авг 2012, 17:02
Репутация: 143
Откуда: Нижний Новгород

Пространственно-временной анализ 2-х переменных

Сообщение jerry-maori » 11 дек 2017, 20:05

Дано:
1. Данные 2013-2017 по числу укусов клещей в административных районах области
2. Данные 2011-2017 по площади проведённых акарицидных обработок в административных районах области

Нужно ответить на основной вопрос: влияет ли интенсивность обработок на число укусов.

И что-то я запутался, как к этому подступиться.
Всяких графиков и карто=схем нарисовано море.
Показано, что районы имеют пространственные кластеры (на основании числа укусов путём локального индекса Морана)

Попробовал выполнить OLS:
(Forest, Grassland,Shrubland -- доля каждого типа Landcover для района на основе данных наших китайских товарищей с 30m_GLOB)

Код: Выделить всё

REGRESSION
----------
SUMMARY OF OUTPUT: ORDINARY LEAST SQUARES
-----------------------------------------
Data set            :     NN_2017
Weights matrix      :Queen_contiguty
Dependent Variable  :       CASES                Number of Observations:          49
Mean dependent var  :    164.3265                Number of Variables   :          10
S.D. dependent var  :    223.6180                Degrees of Freedom    :          39
R-squared           :      0.9860
Adjusted R-squared  :      0.9828
Sum squared residual:   33499.500                F-statistic           :    306.1502
Sigma-square        :     858.962                Prob(F-statistic)     :   2.612e-33
S.E. of regression  :      29.308                Log likelihood        :    -229.451
Sigma-square ML     :     683.663                Akaike info criterion :     478.902
S.E of regression ML:     26.1470                Schwarz criterion     :     497.820

------------------------------------------------------------------------------------
            Variable     Coefficient       Std.Error     t-Statistic     Probability
------------------------------------------------------------------------------------
            CONSTANT      17.9235983      20.9507635       0.8555105       0.3974942
              Forest      -0.3126488       0.2572745      -1.2152345       0.2315825
           Grassland      -1.2393232       1.3484190      -0.9190935       0.3636965
           Shrubland       2.1098984       1.7604572       1.1984946       0.2379568
         ACARID_2015       0.7697115       0.5988864       1.2852378       0.2062895
         ACARID_2014      -0.0114729       0.3234011      -0.0354759       0.9718813
         ACARID_2013      -1.5978458       0.6983871      -2.2879084       0.0276476
         ACARID_2012       0.2199659       0.5290338       0.4157881       0.6798441
           CASE_2016       0.3919278       0.0811383       4.8303660       0.0000214
           CASE_2015       0.5922264       0.0827926       7.1531280       0.0000000
------------------------------------------------------------------------------------

REGRESSION DIAGNOSTICS
MULTICOLLINEARITY CONDITION NUMBER           28.629

TEST ON NORMALITY OF ERRORS
TEST                             DF        VALUE           PROB
Jarque-Bera                       2           3.792           0.1501

DIAGNOSTICS FOR HETEROSKEDASTICITY
RANDOM COEFFICIENTS
TEST                             DF        VALUE           PROB
Breusch-Pagan test                9          53.482           0.0000
Koenker-Bassett test              9          32.339           0.0002

DIAGNOSTICS FOR SPATIAL DEPENDENCE
TEST                           MI/DF       VALUE           PROB
Moran's I (error)              0.2594         3.996           0.0001
Lagrange Multiplier (lag)         1           0.182           0.6693
Robust LM (lag)                   1           0.001           0.9765
Lagrange Multiplier (error)       1           7.669           0.0056
Robust LM (error)                 1           7.488           0.0062
Lagrange Multiplier (SARMA)       2           7.670           0.0216

================================ END OF REPORT =====================================
По результатам просится GWR, которая теоретически нам позволит оценить:
1. То самое влияние
2. Дать прогноз на следующий год.

И с ней начались проблемы.
Я понимаю, почему такой бешенный R2 (практически во всех районах наблюдается ежедгодный рост числа укусов, в итоге модель получается переобученная)

И далле у меня тупик ;(

Пните, плиз, в нужную сторону...

Заранее спасибо.

P.S. Было бы неплохо, наверное завести раздел на форуме типа "Общие вопросы обработки данных"....
Вложения
GWR.png
GWR.png (1.9 МБ) 6454 просмотра

gamm
Гуру
Сообщения: 4048
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1050
Ваше звание: программист
Откуда: Казань

Re: Пространственно-временной анализ 2-х переменных

Сообщение gamm » 11 дек 2017, 20:28

jerry-maori писал(а):
11 дек 2017, 20:05
1. Данные 2013-2017 по числу укусов клещей в административных районах области
2. Данные 2011-2017 по площади проведённых акарицидных обработок в административных районах области
как я уже неоднократно докладывал, для этого изобретена специальная наука, в которой есть пространственно-временные пуассоновские модели. На данный момент наилучший инструмент - INLA, во всех остальных счет с пространственно-временной корреляцией тяжелый, и не всегда численно устойчив (можно использовать gamm() из пакета mgcv, R). А без них модель неадекватная (включая всякие локальные регрессии, их придумали не от хорошей жизни).

P.S. Более ранние подходы можно посмотреть здесь https://ij-healthgeographics.biomedcentral.com/, искать работы Pierre Goovaerts сотоварищи (он специалист по геостатистике) и Geoffrey M Jacquez. Есть близкие модели им. тов. Ord в эконометрике. Но в этих методах в основном только пространственная составляющая. Пространственно-временные модели есть в книжке Cressie, Wikle "Statistics for spatio-temporal data", но их руками делать с ума сойдешь.

Аватара пользователя
jerry-maori
Гуру
Сообщения: 585
Зарегистрирован: 22 авг 2012, 17:02
Репутация: 143
Откуда: Нижний Новгород

Re: Пространственно-временной анализ 2-х переменных

Сообщение jerry-maori » 11 дек 2017, 20:40

Я про INLA знаю, но я в неё не смог;(
Видимо, буду делать очередной забег.
Кста, я так понимаю, что реализация INLA есть только в виде пакета для R?
Думал, можно "малой кровью" обойтись...

gamm
Гуру
Сообщения: 4048
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1050
Ваше звание: программист
Откуда: Казань

Re: Пространственно-временной анализ 2-х переменных

Сообщение gamm » 11 дек 2017, 22:05

jerry-maori писал(а):
11 дек 2017, 20:40
Кста, я так понимаю, что реализация INLA есть только в виде пакета для R?
нет, это автономная система, но запустить ее автономно могут, видимо, только авторы. Поэтому они соорудили нахлобучку, чтобы формировать для ее запуска файлы, а потом забирать результаты. Аналогично дело обстоит и с другими байесовскими системами (WinBUGS, JAGS, ...), но их можно запустить снаружи, особенно WinBUGS (ныне OpenBUGS)
Думал, можно "малой кровью" обойтись...
кнопок недостаточно, нужно знать статистику, писать модель, и понимать, что она выдает. Модель под вашу задачу есть в мануале (на регионах), она довольно общая и понятная - ее можно довольно быстро приспособить http://www.r-inla.org/examples/case-stu ... et-al-2012, смотреть

3.3. INLA for spatio-temporal areal data: low birth weight in Georgia

она Пуассоновская (можно попробовать NB, как пойдет), и добавить туда spatial and temporal covariates

Аватара пользователя
rhot
Гуру
Сообщения: 1727
Зарегистрирован: 25 янв 2011, 17:50
Репутация: 194
Ваше звание: доктор
Откуда: Архангельск

Re: Пространственно-временной анализ 2-х переменных

Сообщение rhot » 12 дек 2017, 11:58

Совет не по теме - не пробовали включить переменную, описывающую места обитания вида. Ещё количество укусов зависит от количества людей на природе. В дождливое лето, например, в лесу только те, у кого контора это делянка или вырубка, ну и натуралисты-любители. К тому же известно, что активность клещей значительно снижается во время дождя и на следующий день после него.
___________(¯`·.¸(¯`·.¸ Scientia potentia est _/ {SILVA}:::{FOSS}:::{GIS} \_ Знание сила ¸.·´¯)¸.·´¯)___________

Аватара пользователя
jerry-maori
Гуру
Сообщения: 585
Зарегистрирован: 22 авг 2012, 17:02
Репутация: 143
Откуда: Нижний Новгород

Re: Пространственно-временной анализ 2-х переменных

Сообщение jerry-maori » 12 дек 2017, 12:24

Переменная, описывающая места обитания - цельных три (как я себе это вижу) : Forest, Grassland,Shrubland -- доля каждого типа Landcover для района на основе данных наших китайских товарищей с 30m_GLOB
А по поводу активности -- данные то за год суммарные. Если только в принципе кол-во осадков летом суммарно за 3 месяца учесть

Аватара пользователя
rhot
Гуру
Сообщения: 1727
Зарегистрирован: 25 янв 2011, 17:50
Репутация: 194
Ваше звание: доктор
Откуда: Архангельск

Re: Пространственно-временной анализ 2-х переменных

Сообщение rhot » 12 дек 2017, 12:41

Можно и так обобщенно потестить. Про места обитания имел ввиду тип леса или состав почвы. В сухих борах на песках клещей не дожно быть, например.

https://www.zin.ru/journals/parazitolog ... nsulin.pdf
___________(¯`·.¸(¯`·.¸ Scientia potentia est _/ {SILVA}:::{FOSS}:::{GIS} \_ Знание сила ¸.·´¯)¸.·´¯)___________

gamm
Гуру
Сообщения: 4048
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1050
Ваше звание: программист
Откуда: Казань

Re: Пространственно-временной анализ 2-х переменных

Сообщение gamm » 12 дек 2017, 12:53

jerry-maori писал(а):
12 дек 2017, 12:24
А по поводу активности -- данные то за год суммарные.
случай укуса - это, как при любой реакции взаимодействия, функция от произведения плотности клещей на плотность населения (с учетом транспортной доступности мест обитания клещей). Пуассоновская (и NB) регрессия делается на логарифмическом масштабе (логарифмы плотностей суммируются), и население и его распределение нужно учесть в offset (который E в модели INLA). И надо посмотреть данные, нет ли там zero inflation.

Тогда мы будем моделировать отклонение от среднего числа случаев (которое учитывает все, кроме плотности клещей), вызванное воздействием на плотность клещей. Т.е. Forest, Grassland,Shrubland должны пойти в вычисление Е, а в модель - случайный временной тренд (rw1), общий для всех областей (для учета изменения, не зависящего от области - те же осадки, и пр.), и случайные тренды (rw1) по областям (на случай сдвига во времени пиков численности, которые наверняка есть), и, наконец, воздействие по областям. Единственная проблема - длина временного ряда.

Аватара пользователя
jerry-maori
Гуру
Сообщения: 585
Зарегистрирован: 22 авг 2012, 17:02
Репутация: 143
Откуда: Нижний Новгород

Re: Пространственно-временной анализ 2-х переменных

Сообщение jerry-maori » 12 дек 2017, 17:30

-

Аватара пользователя
jerry-maori
Гуру
Сообщения: 585
Зарегистрирован: 22 авг 2012, 17:02
Репутация: 143
Откуда: Нижний Новгород

Re: Пространственно-временной анализ 2-х переменных

Сообщение jerry-maori » 13 дек 2017, 06:42

Хнык...
Творцы R-INLA поломали обратную совместимсоть;(
Пример с штатом Georgia более не работает.

Код: Выделить всё

This is INLA_17.06.20 built 2017-12-12 04:05:06 UTC.
Когда делает модель с временными эффектами, получаем:

Код: Выделить всё

Ошибка в inla.marginal.transform(function(x) exp(x), X) :
  не могу найти функцию "inla.marginal.transform"

gamm
Гуру
Сообщения: 4048
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1050
Ваше звание: программист
Откуда: Казань

Re: Пространственно-временной анализ 2-х переменных

Сообщение gamm » 13 дек 2017, 10:00

да, нахлобучки меняют периодически, обычно путем переименования

Код: Выделить всё

`inla.marginal.transform` = function(fun, marginal, n=1024, h.diff = .Machine$double.eps^(1/3),
        method = c("quantile", "linear"),  ...)
{
    return (inla.tmarginal(fun, marginal, n, h.diff, method = method, ...))
}
в данном случае это была нахлобучка на inla.tmarginal(), который есть ... приходится лезть в исходники, и разбираться в безумных структурах после str() :mrgreen:

P.S. Чтобы избежать сильных краевых эффектов, с краев неплохо бы привинтить что-то типа средне-региональных данных у соседей, наверняка есть ...

tikhpetr
Гуру
Сообщения: 1081
Зарегистрирован: 30 окт 2014, 16:33
Репутация: 153
Откуда: г. Жуковский МО

Re: Пространственно-временной анализ 2-х переменных

Сообщение tikhpetr » 13 дек 2017, 13:34

Пардон за флуд! А у нас термин "соседи", вообще означает совсем других людей. Там, вверх по улице два - три здания.)

Ответить

Вернуться в «Общие вопросы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 3 гостя