Встреча ГИС-Лаб и хакатон по УИКам

Конференции, семинары, встречи и их обсуждение
Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Максим Дубинин » 04 июл 2013, 13:18

Сергей, проблема в том, что в них - бардак. Нужно две вещи:

1. Сформировать требования к этим спискам, чтобы люди сразу их формировали правильно, то есть так, чтобы мы могли легко их развернуть.
2. Написать парсер для разворачивания списков в форму пригодную в геокодированию

Данные (вам нужны исходные)

В субботу можно будет поучаствовать и удаленно, координация через IRC.
пристегивайтесь, турбулентность прямо по курсу

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 04 июл 2013, 16:13

Все равно не пойму :-(
Откуда эти данные берутся? Их вручную набирают из PDF? Или сканируют и распознают?

В любом случае, если требуется личное участие во встрече, то я вам не помощник :-(

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Максим Дубинин » 04 июл 2013, 20:53

Sergey Gladilin писал(а):Их вручную набирают из PDF? Или сканируют и распознают?
Да. Да.
Sergey Gladilin писал(а):В любом случае, если требуется личное участие во встрече, то я вам не помощник :-(
Максим Дубинин писал(а):можно будет поучаствовать и удаленно, координация через IRC.
Всё равно как участвовать, главное чтобы дело было сделано.
пристегивайтесь, турбулентность прямо по курсу

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 05 июл 2013, 12:04

Так распознают или перенабирают вручную? Если распознают, то говорить о формате списков не приходится - что нараспознается, то и нараспознается, дальше задача парсера. Если перенабирают, то предлагаю следующий формат записи адресов

1) каждая улица на отдельной строке
2) название улицы отделяется от списка номеров домов каким-нибудь единым для всех символом, например #
3) номера домов разделяются запятой
4) номер дома пишется в традиционном OSM-формате "48А к2 с1" - дом номер 48А, корпус 2, строение 1.
Если номер дома написан через дробь, то так и писать: например, "2/10"

kalenkov
Гуру
Сообщения: 567
Зарегистрирован: 30 апр 2013, 09:33
Репутация: 34

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение kalenkov » 05 июл 2013, 13:11

Про парсинг списка адресов (пункт 9). В некоторых регионах они выдираются из отсканированных документов, но часто есть сразу в текстовом формате, так что перенабирать их не нужно. Сложность в том, что там нет никакой структуры. Каждый пишет так, как ему больше нравится. Приведу несколько примеров, которые могут встретиться в одном документе:

1) ул. Пушкина: дома 1, 4, 6, 8.
ну это просто
2) ул. Лермонтова
подразумеваются все дома по этой улице
3) ул. Тютчева: дома с 1 по 15
способ записи диапазонов может различаться
4) ул. Блока: четная сторона, кроме дома 14
как вам такой вариант?

предыдущие варианты, для простоты, я выдумал из головы, основываясь а своём опыте работы с документами по УИК. А вот реальные примеры

5) Пионерская, дома 20/1, 24/14, 30, 30 (корп.1,2,3,4,5,6)
6) Победы, дома (нечетные номера с 1 по 19), (четные номера с 2 по 16а)
7) Ленинская - номера домов с 59В по 119 и с 58а по 106 (кроме дома 63)

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 05 июл 2013, 13:27

Если так, то я вижу подход в том, чтобы присылать мне все уже имеющиеся данные - и я буду писать скрипт, разбирающий все варианты. Разумеется, варианты типа " 59В по 119 и с 58а по 106 (кроме дома 63)" я разобрать не смогу - постараюсь их отсеить в отдельный список для ручного разбора. Туда же потом, видимо, надо складывать и то, что распарсилось, но не прогеокодировалось.

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Максим Дубинин » 05 июл 2013, 13:32

начать стоит с данных по ссылке выше, позже там появятся и другие, ядумаю.

предложения по формату хорошо бы перенести в вики

ситуации "только улица, четные-нечетные" возможно стоит делать отдельным скриптом выбирающим дома из БД всех домов, существующей в виде shape-файла по названию улицы, а не геокодирующим.
пристегивайтесь, турбулентность прямо по курсу

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 05 июл 2013, 13:35

А я неправильно понял, что данные по ссылке выше - уже распарсенные и обработанные?

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Максим Дубинин » 05 июл 2013, 13:38

то, что в поле territory исходных данных это результат распознавания и перебивания... их и надо парсить в норм. структуру.
пристегивайтесь, турбулентность прямо по курсу

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 05 июл 2013, 13:44

А shape тогда откуда взялся? Вы не могли бы мне рассказать по порядку, что вообще происходит?
И да, что такое "нормальная структура"?

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Максим Дубинин » 05 июл 2013, 14:08

Вот поэтому нужно чаще встречаться, никто совершенно не хочет читать и вникать в то, что написано.

Шейп - это результат геокодирования, исходными данными для него является CSV УИКов. Цитирую.
УИКи г. Москвы, исходные данные - [http://gis-lab.info/data/uik_geo/RU-MOW.7z CSV]
УИКи г. Москвы, результаты геокодирования - [http://gis-lab.info/data/uik_geo/RU-MOW-geo.7z ESRI Shape]
В исходных данных два вида потенциальных геоданных:
1. Адрес комиссии
2. Адресное описание участка.

Адрес комиссии после геокодирования пойдет непосредственно в приложение. Это основная задача.
Преобработка адресного описания участка - вторая задача, еще более амбициозная, но стоит сделать и по ней то, что возможно.

Нормальное описание это описание, которое легко распарсить в правильный вид для геокодирования.
пристегивайтесь, турбулентность прямо по курсу

kalenkov
Гуру
Сообщения: 567
Зарегистрирован: 30 апр 2013, 09:33
Репутация: 34

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение kalenkov » 05 июл 2013, 14:23

Есть геоданные по Московской области. Я думаю, их стоит опробовать, чтобы понять с чем мы столкнёмся в регионах (сельская местность и малые города)

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 05 июл 2013, 14:25

Максим, прошу прощения, я вроде очень внимательно стараюсь читать, но не понимаю. Я попросил исходные данные. Мне дали ссылку на раздел в вики, цитирую:
*ТИКи г. Москвы - [http://gis-lab.info/data/uik_geo/tik.csv CSV]
*УИКи г. Москвы, исходные данные - [http://gis-lab.info/data/uik_geo/RU-MOW.7z CSV]
*УИКи г. Москвы, результаты геокодирования - [http://gis-lab.info/data/uik_geo/RU-MOW-geo.7z ESRI Shape]
Я увидел, что в списке ТИК есть адреса pdf-ок с данными, но их надо сначала распознать, чтобы парсить. Единственное, что уже в электронном виде - УИКи г. Москвы - но, насколько я понял, их уже геокодировали, раз есть шейп. Так?

Я задал вопрос, как будем распознавать pdf-ки - распознавать или перенабирать вручную? Получил ответ "Да.Да". Т.е., видимо, и перенабирать и распознавать? Тут kalenkov написал, что данные часто есть уже в электронном виде. Я попросил присылать их мне, чтобы я мог их парсить. В ответ опять получил от тебя ответ, что данные есть по ссылке выше.

Sergey Gladilin
Интересующийся
Сообщения: 16
Зарегистрирован: 29 июл 2010, 10:15
Репутация: 0
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Sergey Gladilin » 05 июл 2013, 14:26

kalenkov писал(а):Есть геоданные по Московской области. Я думаю, их стоит опробовать, чтобы понять с чем мы столкнёмся в регионах (сельская местность и малые города)
Где их скачать?

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9128
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 747
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Встреча ГИС-Лаб и хакатон по УИКам

Сообщение Максим Дубинин » 05 июл 2013, 14:31

только они пока не геоданные, просто данные, гео будут после геокодирования

я добавил CSV по Мособласти к ссылкам в вики.

Сергей, честно не понимаю, в чем проблема, странный разговор, зайди в IRC, обсудим) Ты спросил откуда берутся данные, распознают ли их, я и ответил - "да, распознают". Потому что это так и есть.

Еще раз повторю, все нужные тебе данные по ссылкам в вики, тебе не нужно ничего распознавать. Нужно брать, парсить и геокодировать.
пристегивайтесь, турбулентность прямо по курсу

Ответить

Вернуться в «Мероприятия»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 9 гостей