Страница 1 из 1

Кто реально работал в R с Random Forest на больших дан

Добавлено: 11 авг 2015, 00:05
sergsh
Кто реально работал в R с Random Forest на больших данных - поделитесь опытом !!!

1. Какой объем данных можно "посчитать" ?
Можно ли брать выборки на 1 000 000 - 2 000 000 строк ? Что это стоит по памяти ?
Как быстро считает ?

2. Какой размер модели получается при ее сохранении ?

3. И главное - какой пакет для Random Forest самый хороший ?

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 11 авг 2015, 09:26
nickleb
sergsh писал(а): ... какой пакет для Random Forest самый хороший ?
м.б., Вам эта ссылка будет полезна:
www.r-bloggers.com/a-brief-tour-of-the- ... d-forests/

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 11 авг 2015, 10:06
sergsh
Ссылка интересная, спасибо !

Но там маленький набор данных, как я понимаю.
С малыми данными любой метод работает хорошо.

А вот что делать когда данных много ...

Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб !!!

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 12 авг 2015, 00:36
ymr3R9Jge
Посмотрите возможности пакета bigrf (Big Random Forests) - он как раз заявлен для обработки больших датасетов.

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 12 авг 2015, 00:53
sergsh
Спасибо !

А вы сами пользовались этим пакетом ?

Какая скорость на больших данных ?
Какой размер модели при сохранении получается ?

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 12 авг 2015, 05:48
gamm
sergsh писал(а):какой пакет для Random Forest самый хороший ?
который подходит к задаче. Напишите, сколько строк в обучающей выборке, сколько переменных (столбцов), их измеримость (номинальные, ординальные, скалярные), сколько в среднем градаций для категориальных переменных, тип модели (классификация или регрессия). И желательно природу данных, чтобы понять сложность требуемой модели.
Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб
вы явно что-то не то сделали, максимальный размер модели, в которой каждая ветка приводит к одному элементу выборки, порядка 100Мб для ваших данных

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 12 авг 2015, 10:38
ymr3R9Jge
sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 14 авг 2015, 17:44
nickleb
ymr3R9Jge писал(а):
sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.
А где сей метод хорошо и доходчиво описан?

Re: Кто реально работал в R с Random Forest на больших дан

Добавлено: 14 авг 2015, 18:51
gamm
сам метод построения одного дерева решений (CART) хорошо описан в Ripley "Pattern recognition and neural networks", кратко в вики тыц), метод с немного другой функцией потерь C4.5 описан много где, например тут.

Random Forest отличается тем, что вместо последовательно оптимального выбора переменных их подмножество выбирают случайно, строят деревья на небольших выборках (bagging), сами деревья очень простые (ограничение на глубину), и их много (сотни). Результат вычисляют голосованием.

наука статистика говорит, что если закономерность в данных есть, и выборка случайная, то работает закон больших чисел, поэтому случайной выборки размером в несколько десятков тысяч элементов обычно достаточно, чтобы построить модель. Дальше ее можно проверять/доводить на оставшейся выборке, например с использованием boosting и т.д., процесс прекращают, когда качество перестает расти.

да, и скорее всего на сайте у Воронцова (тыц) тоже можно найти, я просто не помню