Страница 1 из 1

R: package'ы R эффективны для парсинга HTML-страничек?

Добавлено: 13 июн 2015, 16:04
nickleb
Подскажите, пожалуйста, поделитесь опытом, мнением о том эффективны ли package'ы R для парсинга HTML-страничек? Надо ежеквартально собирать со страниц 50-ти по 5-ть ссылок - каждую ссылку "жмакать", скачивать данные (NеtCDF-формата), реформатировать их в ASCII и пускать их в стат. обработку.

Re: R: package'ы R эффективны для парсинга HTML-страничек?

Добавлено: 13 июн 2015, 19:01
sergsh
Сам не делал, но ссылки лежат, может вам что из них и поможет.
Если получится - поделитесь опытом !

Парсим HTML и скачиваем файлы с подстраниц сайта
http://r.psylab.info/blog/2015/04/15/parse-html/


Phyton:
http://lxml.de/parsing.html

R:

http://blog.rstudio.org/2015/04/21/xml2/
https://beckmw.wordpress.com/tag/parse/
http://www.r-bloggers.com/htmltotext-ex ... via-xpath/
http://stackoverflow.com/questions/1395 ... ml-package

Бенчмарк HTML парсеров
http://habrahabr.ru/post/163979/

Re: R: package'ы R эффективны для парсинга HTML-страничек?

Добавлено: 13 июн 2015, 19:25
nickleb
sergsh писал(а):Сам не делал, но ссылки лежат, может вам что из них и поможет.
Если получится - поделитесь опытом !
Благодарю Вас, sergsh! Хороший подбор ссылок - обязательно воспользуюсь!

Re: R: package'ы R эффективны для парсинга HTML-страничек?

Добавлено: 13 июн 2015, 22:56
sergsh
Сбор данных с веб-сайтов с помощью нового R-пакета rvest

http://datareview.info/article/sbor-dan ... eta-rvest/