Добрый день! Какой пакет лучше всего использовать для восстановления пропущенных значений внутри выборки: mice, mi, Amelia...?
У меня есть 250 наблюдений, каждое из которых описывается комбинацией из 100 независимых между собой параметров. В зависимости от комбинации этих параметров, я на выходе получаю 1 или 0.
Но в моей матрице (250х100) есть пропущенные значения. В каждом столбце от 3 до 10. Для построения адекватной модели, я пытаюсь разобраться, каким методом лучше всего восстановить пропущенные значения?
Я находила примеры, когда в данных есть хотя бы одна зависимая переменная и по ней строили функцию. А как быть, если все переменные независимы?
Очень прошу помощи, так как я только недавно начала изучать R и, по ходу, с такими проблемами буду сталкиваться часто (специфика работы).
Заранее благодарна!
Восстановление пропущенных данных
-
- Новоприбывший
- Сообщения: 2
- Зарегистрирован: 19 авг 2015, 14:06
- Репутация: 0
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Восстановление пропущенных данных
1) волшебной кнопки нет.
2) все методы в перечисленных пакетах Байесовские, и восстанавливают не конкретные значения, а выборку из их модельного распределения. Т.е. фактически вы получаете данные для метода Монте-Карло, что требует выполнения анализа на каждой полученной восполненной выборке, с последующим усреднением результатов
3) программы стараются "угадать" правильные модельные зависимости, кто лучше угадает - не известно, нужно пробовать. Оценить качество угадывания невозможно иначе, как только перекрестной проверкой, удаляя часть данных и сравнивая с результатом восстановления. Но обычно человек знает зависимости, так что лучше сделать Байесовскую модель самому, используя WinBUGS/JAGS, и получить выборку. Либо сразу создать Байесовскую модель, включающую отсутствующие данные, и получить готовое решение (нужно будет только априорное/модельное распределение для отсутствующих данных).
4) Если с Байесовскими методами не знакомы, то только экспериментировать, взяв примеры из хелпа.
2) все методы в перечисленных пакетах Байесовские, и восстанавливают не конкретные значения, а выборку из их модельного распределения. Т.е. фактически вы получаете данные для метода Монте-Карло, что требует выполнения анализа на каждой полученной восполненной выборке, с последующим усреднением результатов
3) программы стараются "угадать" правильные модельные зависимости, кто лучше угадает - не известно, нужно пробовать. Оценить качество угадывания невозможно иначе, как только перекрестной проверкой, удаляя часть данных и сравнивая с результатом восстановления. Но обычно человек знает зависимости, так что лучше сделать Байесовскую модель самому, используя WinBUGS/JAGS, и получить выборку. Либо сразу создать Байесовскую модель, включающую отсутствующие данные, и получить готовое решение (нужно будет только априорное/модельное распределение для отсутствующих данных).
4) Если с Байесовскими методами не знакомы, то только экспериментировать, взяв примеры из хелпа.
-
- Новоприбывший
- Сообщения: 2
- Зарегистрирован: 19 авг 2015, 14:06
- Репутация: 0
Re: Восстановление пропущенных данных
Спасибо за ответ! Буду думать...
-
- Активный участник
- Сообщения: 205
- Зарегистрирован: 20 фев 2013, 21:48
- Репутация: 30
Re: Восстановление пропущенных данных
А можно еще попроще - нарисуйте график для каждого вашего параметра отдельно.
Возможно вы увидите на графиках какие числа было бы разумно поставить в пропуски.
Это точно работает если ваши графики получатся относительно гладкие.
Возможно вы увидите на графиках какие числа было бы разумно поставить в пропуски.
Это точно работает если ваши графики получатся относительно гладкие.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя