Восстановление пропущенных данных

Вопросы по статистическому пакету R. Не обязательно гео.
Ответить
ДарьяДарья
Новоприбывший
Сообщения: 2
Зарегистрирован: 19 авг 2015, 14:06
Репутация: 0

Восстановление пропущенных данных

Сообщение ДарьяДарья »

Добрый день! Какой пакет лучше всего использовать для восстановления пропущенных значений внутри выборки: mice, mi, Amelia...?
У меня есть 250 наблюдений, каждое из которых описывается комбинацией из 100 независимых между собой параметров. В зависимости от комбинации этих параметров, я на выходе получаю 1 или 0.
Но в моей матрице (250х100) есть пропущенные значения. В каждом столбце от 3 до 10. Для построения адекватной модели, я пытаюсь разобраться, каким методом лучше всего восстановить пропущенные значения?
Я находила примеры, когда в данных есть хотя бы одна зависимая переменная и по ней строили функцию. А как быть, если все переменные независимы?

Очень прошу помощи, так как я только недавно начала изучать R и, по ходу, с такими проблемами буду сталкиваться часто (специфика работы).
Заранее благодарна!
gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Восстановление пропущенных данных

Сообщение gamm »

1) волшебной кнопки нет.

2) все методы в перечисленных пакетах Байесовские, и восстанавливают не конкретные значения, а выборку из их модельного распределения. Т.е. фактически вы получаете данные для метода Монте-Карло, что требует выполнения анализа на каждой полученной восполненной выборке, с последующим усреднением результатов

3) программы стараются "угадать" правильные модельные зависимости, кто лучше угадает - не известно, нужно пробовать. Оценить качество угадывания невозможно иначе, как только перекрестной проверкой, удаляя часть данных и сравнивая с результатом восстановления. Но обычно человек знает зависимости, так что лучше сделать Байесовскую модель самому, используя WinBUGS/JAGS, и получить выборку. Либо сразу создать Байесовскую модель, включающую отсутствующие данные, и получить готовое решение (нужно будет только априорное/модельное распределение для отсутствующих данных).

4) Если с Байесовскими методами не знакомы, то только экспериментировать, взяв примеры из хелпа.
ДарьяДарья
Новоприбывший
Сообщения: 2
Зарегистрирован: 19 авг 2015, 14:06
Репутация: 0

Re: Восстановление пропущенных данных

Сообщение ДарьяДарья »

Спасибо за ответ! Буду думать...
sergsh
Активный участник
Сообщения: 205
Зарегистрирован: 20 фев 2013, 21:48
Репутация: 30

Re: Восстановление пропущенных данных

Сообщение sergsh »

А можно еще попроще - нарисуйте график для каждого вашего параметра отдельно.
Возможно вы увидите на графиках какие числа было бы разумно поставить в пропуски.

Это точно работает если ваши графики получатся относительно гладкие.
Ответить

Вернуться в «R»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя