Страница 1 из 1

Парсеры для исходных данных для списков

Добавлено: 18 авг 2013, 14:00
Максим Дубинин
Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа такой).

Или проще заново написать?

Re: Парсеры для исходных данных для списков

Добавлено: 19 авг 2013, 23:28
old_Bibigon
до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно :(

Re: Парсеры для исходных данных для списков

Добавлено: 19 авг 2013, 23:34
Максим Дубинин
да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи

думал может кто-то уже что-то написал

Re: Парсеры для исходных данных для списков

Добавлено: 20 авг 2013, 23:56
Максим Дубинин
Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):

Работают с такими данными:
Наримановского и Ахтубинского

Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.

Re: Парсеры для исходных данных для списков

Добавлено: 21 авг 2013, 13:26
bolotoved
У меня parse-akhtub.py для Ахтюбинского выдал такое:

Код: Выделить всё

,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,

Re: Парсеры для исходных данных для списков

Добавлено: 21 авг 2013, 13:37
Максим Дубинин
упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)

Добавил к скриптам примеры текстов, которые на вход подаются.

PS: неужели этот скрипт и вправду интересен 12-1 человекам ...

Re: Парсеры для исходных данных для списков

Добавлено: 21 авг 2013, 13:46
bolotoved
Максим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разные :) в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).

Re: Парсеры для исходных данных для списков

Добавлено: 21 авг 2013, 13:53
freeExec
Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.

Re: Парсеры для исходных данных для списков

Добавлено: 21 авг 2013, 14:04
Максим Дубинин
bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал

Re: Парсеры для исходных данных для списков

Добавлено: 29 авг 2013, 21:22
old_Bibigon
Как ругаться с многострочными регулярками :)
Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+' :(

Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза :(