Проект Геокладр (Кладр и GNS)

Обсуждение материалов сайта: вопросы, замечания, предложения
bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Проект Геокладр (Кладр и GNS)

Сообщение bim2010 » 27 авг 2009, 10:32

В Кладр добавлены поля из GNS
UFI - Уникальный идентификатор объекта. Одному объекту может соответствовать несколько записей. В этом случае поля UFI таких записей будут совпадать.
UNI - Уникальный идентификатор названия объекта.
LAT - Широта объекта
LONG - Долгота объекта
Unical – уникальность в базе кладр (Unical =1 – уникальное имя в базе)
Adm1 - Код административного деления первого уровня GNS

Name_trans – транслитерированное наименование из GNS
Algoritm – алгоритм поиска


Пример Астраханская ОБЛ. и Республика Калмыкия
Вложения
region_08.rar
Республика Калмыкия
(11.95 КБ) 578 скачиваний
region_30.rar
Астраханская ОБЛ
(19.41 КБ) 508 скачиваний
Последний раз редактировалось bim2010 25 фев 2010, 14:00, всего редактировалось 4 раза.

andreykonkon
Новоприбывший
Сообщения: 3
Зарегистрирован: 03 июл 2009, 16:19
Репутация: 0

Re: Кладр и GNS

Сообщение andreykonkon » 27 авг 2009, 12:16

Вот эти файлы
Вложения
россия-деревни.csv-out.rar
(1.78 МБ) 638 скачиваний
россия-города.csv-out.rar
(43.67 КБ) 725 скачиваний
getnames.rar
(4.39 КБ) 585 скачиваний

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 27 авг 2009, 12:56

Спасибо ! Какие регионы выложить для проверки? Хотелось бы обсудить алгоритмы.

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9033
Зарегистрирован: 06 окт 2003, 20:20
Статьи: 231
Проекты: 12/6
Репутация: 712
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Кладр и GNS

Сообщение Максим Дубинин » 29 авг 2009, 10:48

bim2010: спасибо за тесты, для дальнейшего обсуждения было бы удобно, если бы вы выдали эти же два региона но а) в шейпах и б) включая не только совпавшие, но и несовпавшие объекты. По поводу второго я не совсем понял, включены они или нет, сейчас скачаю посмотрю.
пристегивайтесь, турбулентность прямо по курсу

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 29 авг 2009, 20:50

Предлагаю сообществу новый проект GEOКладр.
Цель проекта: создание полностью открытой базы данных по населенным пунктам с географическими координатами на основе общероссийского классификатора КЛАДР.
Использование только открытых источников.
Используемая система координат - WGS84
Данные не копируются из других карт и баз данных, использующих закрытые источники.

Предлагаю список источников для обсуждения:
1. Слой административно-территориального деления России
Administrative areas - источник GADM (http://biogeo.berkeley.edu/gadm/)
2. GNS - источники http://earth-info.nga.mil/gns/html/namefiles.htm
Описание на рус. http://gis-lab.info/qa/gns.html
3. VMAP0 – источник Русскоязычная база данных по названиям населенных пунктов на основе данных VMap0 http://gis-lab.info/qa/vmap0-settl-rus.html
4. VMAP1 - источники http://geoengine.nga.mil/geospatial/SW_ ... _roam.html
Описание на рус. http://gis-lab.info/qa/vmap1.html
5. gData -
источник U.S. National Imagery and Mapping Agency's (NIMA) database of foreign geographic feature names
http://biogeo.berkeley.edu/bgm/gdata.php
OSM – источник http://www.openstreetmap.org/ , http://gpsmapsearch.com/osm/mp/#


Рассмотрим основные этапы работы алгоритма на примере базы GNS:
1. Автоматическая транслитерация с латиницы на русский язык
Правила русско-английской транслитерации из
системы Board of Geographic Names
http://ezpc.ru/itliter.shtml
2. Привязка слоя административно-территориального деления к КЛАДР
Присвоение базе адм. Терр. Деления России кода КЛАДР.

3. Цикл по базе адм. терр. деления России - определение вхождения координат (например из GNS) в полигон по конкретному району.
Используем алгоритм Проверки принадлежности точки многоугольнику
http://algolist.manual.ru/maths/geom/belong/poly2d.php
4. Цикл автоматического сравнения наименований из базы КЛАДР с результатом транслитерации в базе GNS. При точном совпадении координаты заносятся в поля координат в КЛАДР.
Кроме того определяется дополнительно по какому коду ADM1 (код адм.террит. деления в базе GNS) получилось совпадение. Т.е. возможна ситуация когда нас.пункт относится к определенному региону но находится вне полигона. Этому есть подтверждение – отклонение координат несколько десятков секунд.

5. Цикл по базе GNS по коду ADM1 по тем нас.пунктам которые не синхронизированы с КЛАДР – дополнительная проверка на совпадение наименований.
6. Обратный поиск - цикл по району в GNS определение поле транслит.наименование содержится в поле наименование в Кладр.
7. Использование алгоритма Levenshtein Distance для определения возможного допустимого названия объекта - предложение ближайших похожих.
Возможно приближенное сравнение (approximate matching) (путем задания порогового значения для расстояния Левенштейна Levenshtein distance.
http://ru.wikibooks.org/wiki/%D0%A0%D0% ... 0%BD%D0%B0

Дистанция Левенштейна (также функция Левенштейна или алгоритм Левенштейна) в теории информатики и компьютерной лингвистики является мерой разницы двух последовательностей символов (строк) относительно минимального количества операций Вставки, Удаления и Замены, необходимых для перевода одной строки в другую.
Примеры:
АЙСАРАЙ в GNS - АЙСАПАЙ в Кладр
ДЗХУРАК в GNS - ДЖУРАК в Кладр
РЫЧИНСКИЙ в GNS - РЫЧАНСКИЙ в Кладр
ЯГИНАУЛ в GNS - ЕГИН-АУЛ в Кладр

Практическим применением дистанции Левенштейна является определение похожести последовательностей символов, к примеру в коррекции орфографии или при поиске дубликатов. В 2006 году VLADIMIR I. LEVENSHTEIN, Leading Scientific Researcher, Keldysh Institute for Applied Mathematics, Moscow, Russia получил медаль Хэмминга (IEEE Richard W. Hamming Medal) за вклад в теорию кодов с исправлением ошибок и теорию информации (For contributions to the theory of error-correcting codes and information theory, including the Levenshtein distance).
http://www.ieee.org/portal/pages/about/ ... hampr.html

8. Дополнителный поиск в других базах-источниках. Возможно статистический анализ по координатам объектов из различных источников.
9. Ручная доводка результатов по регионам, проверка и исправление с использованием проверочных БД .



1. Пример Астраханская область
Количество населенных пунктов по КЛАДР - 461 определено координат по GNS - 406
2.Пример республика КАЛМЫКИЯ
Количество населенных пунктов по КЛАДР - 283 определено координат по GNS - 223

Анализ координат населенных пунктов показал, что даже при совпадении наименований их координаты могут не соответствовать реальным - например, Волжский, Олейниково, Вышка и т.д. в Астраханской области - вообще говоря, выпали по координатам, т.е. есть претензии к GNS по достоверности координат. Поэтому, на мой взгляд, далее необходим статистический анализ координат из различных источников.

Примеры в формате shp, mif, csv. (есть изменения в алгоритме относительно 27.08.09)
Последний раз редактировалось bim2010 05 фев 2010, 19:24, всего редактировалось 1 раз.

ProFF
Новоприбывший
Сообщения: 11
Зарегистрирован: 03 мар 2009, 20:35
Репутация: 0

Re: Кладр и GNS

Сообщение ProFF » 02 сен 2009, 09:52

Выложите пожалуста Смоленскую область для проверки. Как эти данные можно мосмотреть в Google или в OSM. Какой WMS сервер, на вашь взгляд, проще в использовании?
Последний раз редактировалось ProFF 02 сен 2009, 11:41, всего редактировалось 1 раз.

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9033
Зарегистрирован: 06 окт 2003, 20:20
Статьи: 231
Проекты: 12/6
Репутация: 712
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: Кладр и GNS

Сообщение Максим Дубинин » 02 сен 2009, 10:33

последние приложенные шейпы - явно неправильные, проверьте мех-м их создания
пристегивайтесь, турбулентность прямо по курсу

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 08 сен 2009, 09:36

Использование алгоритма Levenshtein Distance и прочих не точных методов пока отключил.
Получилось 94950 записей из Кладр синхронизируемых с GNS.
Вызывает сожаление, что сохраненый в QGIS проект не работает, при изменении местоположения папки.
Вложения
qgis2.7z
Сборка QGIS cp1251
(4.82 МБ) 466 скачиваний
qgis94950.jpg
qgis94950.jpg (134.09 КБ) 30015 просмотров
Последний раз редактировалось bim2010 08 сен 2009, 09:46, всего редактировалось 1 раз.

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 08 сен 2009, 09:45

В формате Mapinfo
В dbf формате
Вложения
dbf.7z
(2.68 МБ) 509 скачиваний
mi.7z
(3.9 МБ) 467 скачиваний

Voltron
Гуру
Сообщения: 2627
Зарегистрирован: 29 мар 2007, 14:12
Статьи: 31
Проекты: 4/1
Репутация: 32
Откуда: Ukraine

Re: Кладр и GNS

Сообщение Voltron » 08 сен 2009, 15:22

bim2010 писал(а):Вызывает сожаление, что сохраненый в QGIS проект не работает, при изменении местоположения папки.
В 1.2 относительные пути работают. Какая у вас версия QGIS? Может в свойствах проекта нужно снять галку, которая отвечает за абсолютные/относительные пути?

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 24 окт 2009, 15:56

Черновики статей "Проект ГЕОКЛАДР" и "VMap1 – импорт данных из VPF(Vector Product Format) о населенных пунктах с использованием Mapinfo".
Вложения
vmap1_mapinfo.7z
Черновик статьи "VMap1 – импорт данных из VPF(Vector Product Format) о населенных пунктах с использованием Mapinfo"
(215.72 КБ) 423 скачивания
Проект ГЕОКЛАДР.7z
Черновик статьи "Проект ГЕОКЛАДР"
(27.28 КБ) 425 скачиваний
Последний раз редактировалось bim2010 24 окт 2009, 16:41, всего редактировалось 1 раз.

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 24 окт 2009, 16:40

База ГЕОКЛАДР, OSM, VMAP1 в формате DBF
Вложения
vmap1_rus.7z
База VMAP1 в формате dbf
(882.83 КБ) 432 скачивания
osm_rf.7z
База OSM в формате DBF
(760.31 КБ) 455 скачиваний
kladr1251.7z
База ГЕОКЛАДР в формате DBF
(5.56 МБ) 510 скачиваний

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 24 окт 2009, 19:17

База GNS в DBF формате
Вложения
gns1251.part03.rar
часть 3
(7.83 МБ) 460 скачиваний
gns1251.part02.rar
часть 2
(9.54 МБ) 461 скачивание
gns1251.part01.rar
часть 1
(9.54 МБ) 461 скачивание

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 24 окт 2009, 20:53

КЛАДР в формате shp QGIS.
Итого в КЛАДР определены координаты 108501 объектов из 189235.
Вложения
shp_QGIS.7z
SHP QGIS
(6.49 МБ) 508 скачиваний

bim2010
Гуру
Сообщения: 950
Зарегистрирован: 27 янв 2009, 22:57
Статьи: 1
Проекты: 2
Репутация: 239

Re: Кладр и GNS

Сообщение bim2010 » 25 фев 2010, 13:50

В рамках проекта Геокладр рассмотрим еще один источник картографических данных:

Цифровые векторные географические карты России

http://school-collection.edu.ru/catalog ... ce=themcol

Цифровые карты коллекции отображают географическую информацию о природе, населении, хозяйстве и экологической обстановке на территории нашей страны. В качестве базовой карты используется цифровая общегеографическая карта Российской Федерации, соответствующая по своей подробности и содержанию карте масштаба 1:1 000 000. Базовая карта представлена в реальных географических координатах, в системе координат, принятой в Российской Федерации, и используется в качестве основы для всех тематических сюжетов.
Поставщик ЦОР: ЗАО "Конструкторское бюро "Панорама"
На компьютере пользователя должна быть установлена программная оболочка информационного геокомплекса (35 мб). http://school-collection.edu.ru/catalog ... 9a57fc61d/
Программная оболочка имеет средства создания и редактирования цифровых векторных и растровых карт, выполнения измерений и расчетов расстояний и площадей, построения 3D-моделей, обработки данных дистанционного зондирования, в частности цифровых космических снимков, а также инструментальные средства для работы с базами данных.
Программа ”информационный геокомплекс" позволяет выполнить экспорт и импорт из основых форматов SHP, MIF, DXF, SXF, S57, DBF, TXT (в отличии от ГИС-вьюера версия 10.6.3 http://gistoolkit.ru/download/mapview10.zip, который позволяет выполнить только импорт из перечисленных форматов в формат SXF)
Архив “Общегеографической базовой цифровой карты России” составляет 285 Мб
В распакованном виде ~ 708 Мб. При конвертации в SHP формат, при включении в семантику всех атрибутов около 2200 Мб.
Населенные пункты РФ представлены двумя слоями: полигональный - 6856 объектов и точечный - 48413 объектов.
Изображение


При конвертации из формата КБ Панорама используется классификатор Karta_Rossii.rsc
Общее описание классификаторов представлено:
http://www.gisinfo.ru/classifiers/classifiers.htm
C материалами конкурса методических разработок использования изображения земли можно ознакомится здесь:
http://new.transparentworld.ru/f/Vokrug ... _okolo.pdf
Лицензия: Предназначено только для некоммерческого использования в образовательных целях. :!:
Что же касается дискуссии развернутой на сайте ГИС-ассоциации по поводу использования формата SXF http://www.gisa.ru/59558.html мне хотелось бы выделить мнение Андрианова Владимира Юрьевича, ведущего эксперта ООО "Дата+": http://www.gisa.ru/file/file1444.doc
При работе с Общегеографической базовой цифровой картой России разработанной КБ Панорама хочу отметить, что ряд проблем якобы имеющих место, а именно наличие классификатора, а также бинарный формат SXF, на мой взгляд не являются недостатками.
Скорость открытия 24 слоев с объемом картографической информации 2288546 объектов в программе ”информационный геокомплекс" превосходит скорость открытия и работы этого объема информации в Mapinfo, не говоря уже про QGIS, где с таким объемом работать просто не реально. Хочу напомнить про дискусию “Скорость загрузки большого точечного слоя” в QGIS viewtopic.php?f=27&t=3599 где в качестве примера взят точечный слой GNS http://gis-lab.info/data/gns/gns-shp-utf-rs.7z состоящий из примерно 500000 объектов.
Эти данные (GNS), например, в таком продукте как openjump http://openjump.org
вообще не загружается (с вылетом по ошибке, т.е. есть еще более слабый инструментарий).
Цифровая общегеографическая карта Российской Федерации, соответствующая по своей подробности и содержанию карте масштаба 1:1 000 000, при сравнении с подобной по масштабу - VMAP0, имеет информационную насыщеность как минимум в два раза больше, чем западный аналог , при одних и тех же масштабах.

В архиве представлены два слоя – населенные пункты РФ формат - shp (QGIS проект), проекция - wgs84 epsg4326, кодировка 1251.
Вложения
panorama.7z
-- два слоя – населенные пункты РФ формат - shp (QGIS проект),
проекция - wgs84 epsg4326, кодировка 1251
(2.7 МБ) 477 скачиваний

Ответить

Вернуться в «Материалы сайта»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость