Форумы GIS-Lab.info

Кто реально работал в R с Random Forest на больших данных - поделитесь опытом !!!

1. Какой объем данных можно "посчитать" ?
Можно ли брать выборки на 1 000 000 - 2 000 000 строк ? Что это стоит по памяти ?
Как быстро считает ?

2. Какой размер модели получается при ее сохранении ?

3. И главное - какой пакет для Random Forest самый хороший ?

sergsh писал(а): ... какой пакет для Random Forest самый хороший ?

м.б., Вам эта ссылка будет полезна:
www.r-bloggers.com/a-brief-tour-of-the- ... d-forests/

Ссылка интересная, спасибо !

Но там маленький набор данных, как я понимаю.
С малыми данными любой метод работает хорошо.

А вот что делать когда данных много ...

Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб !!!

Посмотрите возможности пакета bigrf (Big Random Forests) - он как раз заявлен для обработки больших датасетов.

Спасибо !

А вы сами пользовались этим пакетом ?

Какая скорость на больших данных ?
Какой размер модели при сохранении получается ?

sergsh писал(а):какой пакет для Random Forest самый хороший ?

который подходит к задаче. Напишите, сколько строк в обучающей выборке, сколько переменных (столбцов), их измеримость (номинальные, ординальные, скалярные), сколько в среднем градаций для категориальных переменных, тип модели (классификация или регрессия). И желательно природу данных, чтобы понять сложность требуемой модели.

Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб

вы явно что-то не то сделали, максимальный размер модели, в которой каждая ветка приводит к одному элементу выборки, порядка 100Мб для ваших данных

sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?

Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.

ymr3R9Jge писал(а):
sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.

А где сей метод хорошо и доходчиво описан?

сам метод построения одного дерева решений (CART) хорошо описан в Ripley "Pattern recognition and neural networks", кратко в вики тыц), метод с немного другой функцией потерь C4.5 описан много где, например тут.

Random Forest отличается тем, что вместо последовательно оптимального выбора переменных их подмножество выбирают случайно, строят деревья на небольших выборках (bagging), сами деревья очень простые (ограничение на глубину), и их много (сотни). Результат вычисляют голосованием.

наука статистика говорит, что если закономерность в данных есть, и выборка случайная, то работает закон больших чисел, поэтому случайной выборки размером в несколько десятков тысяч элементов обычно достаточно, чтобы построить модель. Дальше ее можно проверять/доводить на оставшейся выборке, например с использованием boosting и т.д., процесс прекращают, когда качество перестает расти.

да, и скорее всего на сайте у Воронцова (тыц) тоже можно найти, я просто не помню

Форумы GIS-Lab.info

Кто реально работал в R с Random Forest на больших дан

Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан

Re: Кто реально работал в R с Random Forest на больших дан