Кто реально работал в R с Random Forest на больших дан
-
- Активный участник
- Сообщения: 205
- Зарегистрирован: 20 фев 2013, 21:48
- Репутация: 30
Кто реально работал в R с Random Forest на больших дан
Кто реально работал в R с Random Forest на больших данных - поделитесь опытом !!!
1. Какой объем данных можно "посчитать" ?
Можно ли брать выборки на 1 000 000 - 2 000 000 строк ? Что это стоит по памяти ?
Как быстро считает ?
2. Какой размер модели получается при ее сохранении ?
3. И главное - какой пакет для Random Forest самый хороший ?
1. Какой объем данных можно "посчитать" ?
Можно ли брать выборки на 1 000 000 - 2 000 000 строк ? Что это стоит по памяти ?
Как быстро считает ?
2. Какой размер модели получается при ее сохранении ?
3. И главное - какой пакет для Random Forest самый хороший ?
-
- Гуру
- Сообщения: 968
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: Кто реально работал в R с Random Forest на больших дан
м.б., Вам эта ссылка будет полезна:sergsh писал(а): ... какой пакет для Random Forest самый хороший ?
www.r-bloggers.com/a-brief-tour-of-the- ... d-forests/
-
- Активный участник
- Сообщения: 205
- Зарегистрирован: 20 фев 2013, 21:48
- Репутация: 30
Re: Кто реально работал в R с Random Forest на больших дан
Ссылка интересная, спасибо !
Но там маленький набор данных, как я понимаю.
С малыми данными любой метод работает хорошо.
А вот что делать когда данных много ...
Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб !!!
Но там маленький набор данных, как я понимаю.
С малыми данными любой метод работает хорошо.
А вот что делать когда данных много ...
Я недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб !!!
-
- Активный участник
- Сообщения: 117
- Зарегистрирован: 31 окт 2011, 00:18
- Репутация: 14
- Откуда: Кривий Ріг
Re: Кто реально работал в R с Random Forest на больших дан
Посмотрите возможности пакета bigrf (Big Random Forests) - он как раз заявлен для обработки больших датасетов.
-
- Активный участник
- Сообщения: 205
- Зарегистрирован: 20 фев 2013, 21:48
- Репутация: 30
Re: Кто реально работал в R с Random Forest на больших дан
Спасибо !
А вы сами пользовались этим пакетом ?
Какая скорость на больших данных ?
Какой размер модели при сохранении получается ?
А вы сами пользовались этим пакетом ?
Какая скорость на больших данных ?
Какой размер модели при сохранении получается ?
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Кто реально работал в R с Random Forest на больших дан
который подходит к задаче. Напишите, сколько строк в обучающей выборке, сколько переменных (столбцов), их измеримость (номинальные, ординальные, скалярные), сколько в среднем градаций для категориальных переменных, тип модели (классификация или регрессия). И желательно природу данных, чтобы понять сложность требуемой модели.sergsh писал(а):какой пакет для Random Forest самый хороший ?
вы явно что-то не то сделали, максимальный размер модели, в которой каждая ветка приводит к одному элементу выборки, порядка 100Мб для ваших данныхЯ недавно пытался ( в матлабе) сохранить полученную модель по данным 150 000 строк, так пришлось прерывать после превышения сохраняемым файлом размера 8.5 Гб
-
- Активный участник
- Сообщения: 117
- Зарегистрирован: 31 окт 2011, 00:18
- Репутация: 14
- Откуда: Кривий Ріг
Re: Кто реально работал в R с Random Forest на больших дан
Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
-
- Гуру
- Сообщения: 968
- Зарегистрирован: 22 май 2010, 20:20
- Репутация: 154
Re: Кто реально работал в R с Random Forest на больших дан
А где сей метод хорошо и доходчиво описан?ymr3R9Jge писал(а):Нет, сам не пользовался. И, по правде, случайный лес применял только в целях самообучения. В реальных задачах с этими методами сталкиваться ещё не приходилось.sergsh писал(а):Спасибо !
А вы сами пользовались этим пакетом ?
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Кто реально работал в R с Random Forest на больших дан
сам метод построения одного дерева решений (CART) хорошо описан в Ripley "Pattern recognition and neural networks", кратко в вики тыц), метод с немного другой функцией потерь C4.5 описан много где, например тут.
Random Forest отличается тем, что вместо последовательно оптимального выбора переменных их подмножество выбирают случайно, строят деревья на небольших выборках (bagging), сами деревья очень простые (ограничение на глубину), и их много (сотни). Результат вычисляют голосованием.
наука статистика говорит, что если закономерность в данных есть, и выборка случайная, то работает закон больших чисел, поэтому случайной выборки размером в несколько десятков тысяч элементов обычно достаточно, чтобы построить модель. Дальше ее можно проверять/доводить на оставшейся выборке, например с использованием boosting и т.д., процесс прекращают, когда качество перестает расти.
да, и скорее всего на сайте у Воронцова (тыц) тоже можно найти, я просто не помню
Random Forest отличается тем, что вместо последовательно оптимального выбора переменных их подмножество выбирают случайно, строят деревья на небольших выборках (bagging), сами деревья очень простые (ограничение на глубину), и их много (сотни). Результат вычисляют голосованием.
наука статистика говорит, что если закономерность в данных есть, и выборка случайная, то работает закон больших чисел, поэтому случайной выборки размером в несколько десятков тысяч элементов обычно достаточно, чтобы построить модель. Дальше ее можно проверять/доводить на оставшейся выборке, например с использованием boosting и т.д., процесс прекращают, когда качество перестает расти.
да, и скорее всего на сайте у Воронцова (тыц) тоже можно найти, я просто не помню
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость