Парсеры для исходных данных для списков

Максим Дубинин

Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа такой).

Или проще заново написать?

Сообщение **old_Bibigon** » 19 авг 2013, 23:28

до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно

Максим Дубинин

да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи

думал может кто-то уже что-то написал

Максим Дубинин

Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):

Работают с такими данными:
Наримановского и Ахтубинского

Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.

Сообщение **bolotoved** » 21 авг 2013, 13:26

У меня parse-akhtub.py для Ахтюбинского выдал такое:

Код: Выделить всё

,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,

Максим Дубинин

упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)

Добавил к скриптам примеры текстов, которые на вход подаются.

PS: неужели этот скрипт и вправду интересен 12-1 человекам ...

Сообщение **bolotoved** » 21 авг 2013, 13:46

Максим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...

Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разные

в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).

Сообщение **freeExec** » 21 авг 2013, 13:53

Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.

Максим Дубинин

bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал

Сообщение **old_Bibigon** » 29 авг 2013, 21:22

Как ругаться с многострочными регулярками

Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+'

Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза

Форумы GIS-Lab.info

Парсеры для исходных данных для списков

Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Re: Парсеры для исходных данных для списков

Кто сейчас на конференции