Страница 1 из 1
					
				Парсеры для исходных данных для списков
				Добавлено: 18 авг 2013, 14:00
				 Максим Дубинин
				Не покидаете ли в эту тему ссылки на код парсеров для таблиц с сайтов избиркомов (типа 
такой).
Или проще заново написать?
 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 19 авг 2013, 23:28
				 old_Bibigon
				до какой степени парсить смотря. можно ctrl-c и в oocalc правка-"вставить как..." выбрать html и получишь такую же табличку но в calc'e.
А вот как отделить здание от адреса мне тоже интересно 

 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 19 авг 2013, 23:34
				 Максим Дубинин
				да, пока так и сделал и вручную отредактировал, три сотни это не три тысячи
думал может кто-то уже что-то написал
			 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 20 авг 2013, 23:56
				 Максим Дубинин
				Может кому пригодится, пара парсеров (на самом деле один, но в 2 вариантах):
Работают с такими данными:
 
Наримановского и 
Ахтубинского
Всё топорно, но от копи-пейста избавляют, требуют некоторой доводки таблиц до окончательной красоты.
 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 21 авг 2013, 13:26
				 bolotoved
				У меня parse-akhtub.py для Ахтюбинского выдал такое:
Код: Выделить всё
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входят:,,,
,,В границы избирательного участка входит с. Туркменка.,,,
,,В границы избирательного участка входит с. Курченко.,,,
,,В границы избирательного участка входит с. Янго-Аскер.,,,
,,В границы избирательного участка входит с. Николаевка.,,,
,,В границы избирательного участка входят:,,,
 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 21 авг 2013, 13:37
				 Максим Дубинин
				упс, забыл важную деталь, я скопировал и вставил в текстовый документ информацию по страницы) и удалил в notepad++ все пустые строки, потом скрипт запускал)
Добавил к скриптам примеры текстов, которые на вход подаются.
PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
			 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 21 авг 2013, 13:46
				 bolotoved
				Максим Дубинин писал(а):PS: неужели этот скрипт и вправду интересен 12-1 человекам ...
Мне интересны разные подходы, я посмотрел несколько парсеров, все - очень разные 

 в итоге написал свой для ХМАО (там специфика - выдергивание текста из PDF).
 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 21 авг 2013, 13:53
				 freeExec
				Плохо то, что ЦИК не выдал всем шаблон, поэтому в пределах одной области выходят по 2-3 разных варианта написания, что уж говорить о всей стране в целом.
			 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 21 авг 2013, 14:04
				 Максим Дубинин
				bolotoved, да-да, я поэтому и удивился, потому что парсеры очень индивидуальные все, правильно что свой сделал
			 
			
					
				Re: Парсеры для исходных данных для списков
				Добавлено: 29 авг 2013, 21:22
				 old_Bibigon
				Как ругаться с многострочными регулярками 

Сохраняем 
doc как текст и отрезаем лишнее, txt скармливаем питону, получаем что надо, доводим в oocalc потом.
Разделителем помещения и адреса считается ',' но где-то в 5 случаев было уточнение помещения (типа "здание, 1 этаж").
Для отделения помещения от место расположения уик хотелось использовать "-", но как оказалось тире у нас несколько видов и это не минус, потому ожидаем 'голосования.{,3}\s+' 
 
Подгонка регулярки довольно нудная задача и не всегда всё взлетает когда надо, тем более с первого раза 
