Парсеры для исходных данных для списков
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9129
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 748
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Парсеры для исходных данных для списков
Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа такой).
Или проще заново написать?
			
									
									Или проще заново написать?
пристегивайтесь, турбулентность прямо по курсу
						- 
				old_Bibigon
- Участник
- Сообщения: 78
- Зарегистрирован: 25 янв 2010, 14:14
- Репутация: 3
Re: Парсеры для исходных данных для списков
до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно
			
									
									
						А вот как отделить здание от адреса мне тоже интересно

- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9129
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 748
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи
думал может кто-то уже что-то написал
			
									
									думал может кто-то уже что-то написал
пристегивайтесь, турбулентность прямо по курсу
						- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9129
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 748
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):
Работают с такими данными:
Наримановского и Ахтубинского
Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
							Работают с такими данными:
Наримановского и Ахтубинского
Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
- Вложения
- 
			
		
		
				 nariman.txt nariman.txt
- (31.17 КБ) 945 скачиваний
 
- 
			
		
		
				 akhtub.txt akhtub.txt
- (36.45 КБ) 1302 скачивания
 
- 
			
		
		
				 parse-akhtub.py parse-akhtub.py
- (1.82 КБ) 1094 скачивания
 
- 
			
		
		
				 parse-nariman.py parse-nariman.py
- (1.84 КБ) 1169 скачиваний
 
пристегивайтесь, турбулентность прямо по курсу
						- 
				bolotoved
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Парсеры для исходных данных для списков
У меня parse-akhtub.py для Ахтюбинского выдал такое:
			
									
									
						Код: Выделить всё
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9129
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 748
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)
Добавил к скриптам примеры текстов, которые на вход подаются.
PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
			
									
									Добавил к скриптам примеры текстов, которые на вход подаются.
PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
пристегивайтесь, турбулентность прямо по курсу
						- 
				bolotoved
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Парсеры для исходных данных для списков
Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разныеМаксим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
 в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).
 в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).- 
				freeExec
- Гуру
- Сообщения: 1195
- Зарегистрирован: 23 апр 2011, 10:32
- Репутация: 205
- Откуда: Ульяновск
Re: Парсеры для исходных данных для списков
Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.
			
									
									
						- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9129
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 748
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: Парсеры для исходных данных для списков
bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал
			
									
									пристегивайтесь, турбулентность прямо по курсу
						- 
				old_Bibigon
- Участник
- Сообщения: 78
- Зарегистрирован: 25 янв 2010, 14:14
- Репутация: 3
Re: Парсеры для исходных данных для списков
Как ругаться с многострочными регулярками 
Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+'
Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза
							
Сохраняем doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+'

Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза

- Вложения
- 
			
		
		
				 Архангельск_ИУ.txt Архангельск_ИУ.txt
- входные данные для парсера
- (147.37 КБ) 1251 скачивание
 
- 
			
		
		
				 parse.py parse.py
- парсер уиков
- (1.43 КБ) 1258 скачиваний
 
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 4 гостя
