Парсеры для исходных данных для списков
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9128
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 747
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Парсеры для исходных данных для списков
Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа такой).
Или проще заново написать?
Или проще заново написать?
пристегивайтесь, турбулентность прямо по курсу
-
- Участник
- Сообщения: 78
- Зарегистрирован: 25 янв 2010, 14:14
- Репутация: 3
Re: Парсеры для исходных данных для списков
до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно
А вот как отделить здание от адреса мне тоже интересно
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9128
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 747
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи
думал может кто-то уже что-то написал
думал может кто-то уже что-то написал
пристегивайтесь, турбулентность прямо по курсу
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9128
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 747
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):
Работают с такими данными:
Наримановского и Ахтубинского
Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
Работают с такими данными:
Наримановского и Ахтубинского
Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
- Вложения
-
- nariman.txt
- (31.17 КБ) 822 скачивания
-
- akhtub.txt
- (36.45 КБ) 1091 скачивание
-
- parse-akhtub.py
- (1.82 КБ) 940 скачиваний
-
- parse-nariman.py
- (1.84 КБ) 1038 скачиваний
пристегивайтесь, турбулентность прямо по курсу
-
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Парсеры для исходных данных для списков
У меня parse-akhtub.py для Ахтюбинского выдал такое:
Код: Выделить всё
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9128
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 747
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)
Добавил к скриптам примеры текстов, которые на вход подаются.
PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
Добавил к скриптам примеры текстов, которые на вход подаются.
PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
пристегивайтесь, турбулентность прямо по курсу
-
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Парсеры для исходных данных для списков
Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разные в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).Максим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
-
- Гуру
- Сообщения: 1195
- Зарегистрирован: 23 апр 2011, 10:32
- Репутация: 205
- Откуда: Ульяновск
Re: Парсеры для исходных данных для списков
Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9128
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 747
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал
пристегивайтесь, турбулентность прямо по курсу
-
- Участник
- Сообщения: 78
- Зарегистрирован: 25 янв 2010, 14:14
- Репутация: 3
Re: Парсеры для исходных данных для списков
Как ругаться с многострочными регулярками
Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+'
Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза
Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+'
Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза
- Вложения
-
- Архангельск_ИУ.txt
- входные данные для парсера
- (147.37 КБ) 1088 скачиваний
-
- parse.py
- парсер уиков
- (1.43 КБ) 1109 скачиваний
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость