Парсеры для исходных данных для списков

Создание карты участковых избирательных комиссий
Ответить
Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Парсеры для исходных данных для списков

Сообщение Максим Дубинин » 18 авг 2013, 14:00

Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа такой).

Или проще заново написать?
пристегивайтесь, турбулентность прямо по курсу

old_Bibigon
Участник
Сообщения: 78
Зарегистрирован: 25 янв 2010, 14:14
Репутация: 3

Re: Парсеры для исходных данных для списков

Сообщение old_Bibigon » 19 авг 2013, 23:28

до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно :(

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Парсеры для исходных данных для списков

Сообщение Максим Дубинин » 19 авг 2013, 23:34

да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи

думал может кто-то уже что-то написал
пристегивайтесь, турбулентность прямо по курсу

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Парсеры для исходных данных для списков

Сообщение Максим Дубинин » 20 авг 2013, 23:56

Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):

Работают с такими данными:
Наримановского и Ахтубинского

Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
Вложения
nariman.txt
(31.17 КБ) 797 скачиваний
akhtub.txt
(36.45 КБ) 1075 скачиваний
parse-akhtub.py
(1.82 КБ) 925 скачиваний
parse-nariman.py
(1.84 КБ) 1022 скачивания
пристегивайтесь, турбулентность прямо по курсу

bolotoved
Гуру
Сообщения: 920
Зарегистрирован: 30 дек 2008, 14:11
Репутация: 236
Откуда: Ханты-Мансийск
Контактная информация:

Re: Парсеры для исходных данных для списков

Сообщение bolotoved » 21 авг 2013, 13:26

У меня parse-akhtub.py для Ахтюбинского выдал такое:

Код: Выделить всё

,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Парсеры для исходных данных для списков

Сообщение Максим Дубинин » 21 авг 2013, 13:37

упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)

Добавил к скриптам примеры текстов, которые на вход подаются.

PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
пристегивайтесь, турбулентность прямо по курсу

bolotoved
Гуру
Сообщения: 920
Зарегистрирован: 30 дек 2008, 14:11
Репутация: 236
Откуда: Ханты-Мансийск
Контактная информация:

Re: Парсеры для исходных данных для списков

Сообщение bolotoved » 21 авг 2013, 13:46

Максим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разные :) в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).

freeExec
Гуру
Сообщения: 1195
Зарегистрирован: 23 апр 2011, 10:32
Репутация: 205
Откуда: Ульяновск

Re: Парсеры для исходных данных для списков

Сообщение freeExec » 21 авг 2013, 13:53

Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Парсеры для исходных данных для списков

Сообщение Максим Дубинин » 21 авг 2013, 14:04

bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал
пристегивайтесь, турбулентность прямо по курсу

old_Bibigon
Участник
Сообщения: 78
Зарегистрирован: 25 янв 2010, 14:14
Репутация: 3

Re: Парсеры для исходных данных для списков

Сообщение old_Bibigon » 29 авг 2013, 21:22

Как ругаться с многострочными регулярками :)
Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+' :(

Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза :(
Вложения
Архангельск_ИУ.txt
входные данные для парсера
(147.37 КБ) 1071 скачивание
parse.py
парсер уиков
(1.43 КБ) 1095 скачиваний

Ответить

Вернуться в «УИК ГЕО»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 4 гостя