R: package'ы R эффективны для парсинга HTML-страничек?

Вопросы по статистическому пакету R. Не обязательно гео.
Ответить
nickleb
Гуру
Сообщения: 968
Зарегистрирован: 22 май 2010, 20:20
Репутация: 154

R: package'ы R эффективны для парсинга HTML-страничек?

Сообщение nickleb »

Подскажите, пожалуйста, поделитесь опытом, мнением о том эффективны ли package'ы R для парсинга HTML-страничек? Надо ежеквартально собирать со страниц 50-ти по 5-ть ссылок - каждую ссылку "жмакать", скачивать данные (NеtCDF-формата), реформатировать их в ASCII и пускать их в стат. обработку.
sergsh
Активный участник
Сообщения: 205
Зарегистрирован: 20 фев 2013, 21:48
Репутация: 30

Re: R: package'ы R эффективны для парсинга HTML-страничек?

Сообщение sergsh »

Сам не делал, но ссылки лежат, может вам что из них и поможет.
Если получится - поделитесь опытом !

Парсим HTML и скачиваем файлы с подстраниц сайта
http://r.psylab.info/blog/2015/04/15/parse-html/


Phyton:
http://lxml.de/parsing.html

R:

http://blog.rstudio.org/2015/04/21/xml2/
https://beckmw.wordpress.com/tag/parse/
http://www.r-bloggers.com/htmltotext-ex ... via-xpath/
http://stackoverflow.com/questions/1395 ... ml-package

Бенчмарк HTML парсеров
http://habrahabr.ru/post/163979/
nickleb
Гуру
Сообщения: 968
Зарегистрирован: 22 май 2010, 20:20
Репутация: 154

Re: R: package'ы R эффективны для парсинга HTML-страничек?

Сообщение nickleb »

sergsh писал(а):Сам не делал, но ссылки лежат, может вам что из них и поможет.
Если получится - поделитесь опытом !
Благодарю Вас, sergsh! Хороший подбор ссылок - обязательно воспользуюсь!
sergsh
Активный участник
Сообщения: 205
Зарегистрирован: 20 фев 2013, 21:48
Репутация: 30

Re: R: package'ы R эффективны для парсинга HTML-страничек?

Сообщение sergsh »

Сбор данных с веб-сайтов с помощью нового R-пакета rvest

http://datareview.info/article/sbor-dan ... eta-rvest/
Ответить

Вернуться в «R»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость