Страница 1 из 1
Парсеры для исходных данных для списков
Добавлено: 18 авг 2013, 14:00
Максим Дубинин
Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа
такой).
Или проще заново написать?
Re: Парсеры для исходных данных для списков
Добавлено: 19 авг 2013, 23:28
old_Bibigon
до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно
Re: Парсеры для исходных данных для списков
Добавлено: 19 авг 2013, 23:34
Максим Дубинин
да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи
думал может кто-то уже что-то написал
Re: Парсеры для исходных данных для списков
Добавлено: 20 авг 2013, 23:56
Максим Дубинин
Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):
Работают с такими данными:
Наримановского и
Ахтубинского
Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
Re: Парсеры для исходных данных для списков
Добавлено: 21 авг 2013, 13:26
bolotoved
У меня parse-akhtub.py для Ахтюбинского выдал такое:
Код: Выделить всё
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,
Re: Парсеры для исходных данных для списков
Добавлено: 21 авг 2013, 13:37
Максим Дубинин
упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)
Добавил к скриптам примеры текстов, которые на вход подаются.
PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
Re: Парсеры для исходных данных для списков
Добавлено: 21 авг 2013, 13:46
bolotoved
Максим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разные
в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).
Re: Парсеры для исходных данных для списков
Добавлено: 21 авг 2013, 13:53
freeExec
Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.
Re: Парсеры для исходных данных для списков
Добавлено: 21 авг 2013, 14:04
Максим Дубинин
bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал
Re: Парсеры для исходных данных для списков
Добавлено: 29 авг 2013, 21:22
old_Bibigon
Как ругаться с многострочными регулярками
Сохраняем
doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+'
Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза