Кто реально работал в R с Random Forest на больших дан

Вопросы по статистическому пакету R. Не обязательно гео.
Ответить
sergsh
Активный участник
Сообщения: 205
Зарегистрирован: 20 фев 2013, 21:48
Репутация: 30

Кто реально работал в R с Random Forest на больших дан

Сообщение sergsh »

Кто реально работал в R с Random Forest на больших данных - поделитесь опытом !!!

1. Какой объем данных можно "посчитать" ?
Можно ли брать выборки на 1 000 000 - 2 000 000 строк ? Что это стоит по памяти ?
Как быстро считает ?

2. Какой размер модели получается при ее сохранении ?

3. И главное - какой пакет для Random Forest самый хороший ?
nickleb
Гуру
Сообщения: 968
Зарегистрирован: 22 май 2010, 20:20
Репутация: 154

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение nickleb »

sergsh писал(а): ... какой пакет для Random Forest самый хороший ?
м.б., Вам эта ссылка будет полезна:
www.r-bloggers.com/a-brief-tour-of-the- ... d-forests/
sergsh
Активный участник
Сообщения: 205
Зарегистрирован: 20 фев 2013, 21:48
Репутация: 30

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение sergsh »

Ссылка интересная, спасибо !

Но там маленький набор данных, как я понимаю.
С малыми данными любой метод работает хорошо.

А вот что делать когда данных много ...

Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб !!!
ymr3R9Jge
Активный участник
Сообщения: 117
Зарегистрирован: 31 окт 2011, 00:18
Репутация: 14
Откуда: Кривий Ріг

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение ymr3R9Jge »

Посмотрите возможности пакета bigrf (Big Random Forests) - он как раз заявлен для обработки больших датасетов.
sergsh
Активный участник
Сообщения: 205
Зарегистрирован: 20 фев 2013, 21:48
Репутация: 30

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение sergsh »

Спасибо !

А вы сами пользовались этим пакетом ?

Какая скорость на больших данных ?
Какой размер модели при сохранении получается ?
gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение gamm »

sergsh писал(а):какой пакет для Random Forest самый хороший ?
который подходит к задаче. Напишите, сколько строк в обучающей выборке, сколько переменных (столбцов), их измеримость (номинальные, ординальные, скалярные), сколько в среднем градаций для категориальных переменных, тип модели (классификация или регрессия). И желательно природу данных, чтобы понять сложность требуемой модели.
Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб
вы явно что-то не то сделали, максимальный размер модели, в которой каждая ветка приводит к одному элементу выборки, порядка 100Мб для ваших данных
ymr3R9Jge
Активный участник
Сообщения: 117
Зарегистрирован: 31 окт 2011, 00:18
Репутация: 14
Откуда: Кривий Ріг

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение ymr3R9Jge »

sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.
nickleb
Гуру
Сообщения: 968
Зарегистрирован: 22 май 2010, 20:20
Репутация: 154

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение nickleb »

ymr3R9Jge писал(а):
sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.
А где сей метод хорошо и доходчиво описан?
gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Кто реально работал в R с Random Forest на больших дан

Сообщение gamm »

сам метод построения одного дерева решений (CART) хорошо описан в Ripley "Pattern recognition and neural networks", кратко в вики тыц), метод с немного другой функцией потерь C4.5 описан много где, например тут.

Random Forest отличается тем, что вместо последовательно оптимального выбора переменных их подмножество выбирают случайно, строят деревья на небольших выборках (bagging), сами деревья очень простые (ограничение на глубину), и их много (сотни). Результат вычисляют голосованием.

наука статистика говорит, что если закономерность в данных есть, и выборка случайная, то работает закон больших чисел, поэтому случайной выборки размером в несколько десятков тысяч элементов обычно достаточно, чтобы построить модель. Дальше ее можно проверять/доводить на оставшейся выборке, например с использованием boosting и т.д., процесс прекращают, когда качество перестает расти.

да, и скорее всего на сайте у Воронцова (тыц) тоже можно найти, я просто не помню
Ответить

Вернуться в «R»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость