GIS-LAB

Географические информационные системы и дистанционное зондирование

Перевод названий населенных пунктов VMap0

Описание проекта

Это координационная страница коллективного проекта по переводу названий населенных пунктов на основе данных VMap0. Здесь публикуется описание проекта, примеры и делится работа.

Данный проект завершен, результаты доступны для скачивания на странице описания данных.

О проекте

Цель проекта: создание полностью открытой базы данных по населенным пунктам.

В результате база будет включать следующие поля для каждого населенного пункта:

  • широта центра
  • долгота центра
  • название на английском (транслитерированное)
  • название на русском
  • тип пункта
  • название субъекта федерации
  • название административного района

Принципы реализации проекта

  1. Использование только открытых источников. Не копируем с других карт и баз данных использующих закрытые источники (например geonames), википедии, в той части где указаны другие источники-карты, готовые подобные слои других, как правило коммерческих, организаций и т.п.

Основные этапы проекта:

  1. Автоматическая транслитерация с латиницы на русский язык
  2. Автоматическое сравнение результата транслитерации с проверочными БД (ОКАТО, КЛАДР), если полного совпадения нет, индикация и предложение ближайших похожих.
  3. Разделение результатов на блоки проверки.
  4. Ручная доводка результатов по блокам, проверка и исправление с использованием тех же проверочных БД
  5. Добавление поля субъект федерации со значением
  6. Добавление поля административный район
  7. Добавление поле тип населенного пункта
  8. Добавление полей широта и долгота

Исходные и проверочные данные

В качестве исходных используются два слоя VMap0 на территорию РФ:

  • pop-build-a, поле Nam, 6566 пунктов
  • pop-miscellaneous-population-p, поле Nam, 4587 пунктов

Базы shape-файлов находятся в кодировке Windows-1251.

Для первичной автоматической проверки данных и дальнейшей работы рекомендуется использовать две официально открытые базы данных:

  • Классификатор адресов России (КЛАДР) >>>
    Скачать в формате MS Access, DBF.

Проверочные материалы, которые могут и не могут использоваться при работе:

  • Общероссийский классификатор объектов административно-территориального деления (ОКАТО) >>>
    Скачать в формате CSV.
  • См. ЧаВо

Участие

Пункт 1 - 3, 7 выполняются координацией проекта.

Если вы приняли решение поучаствовать в этом проекте, выберите незанятый квадрат. Сообщите на форуме, что вы взялись проверять соответствующие квадраты. После некоторого времени вам по почте отправят заказанный вами фрагмент.

Цветом показаны занятые квадраты (голубой) и завершенные квадраты (розовый).

Предлагаемая схема работы

Загрузите полученную таблицу в удобный для вас редактор. Возьмите первую запись:

  • если количество ошибок в поле Err=0
  • если Err>0 и ошибка в Nam_tlt очевидна, исправьте ее в поле Result
  • если вариант исправления не очевиден, проконсультируйтесь в проверочных БД, СМИ, системах Гарант и Консультант+, других, открытых источниках

Перейдите к следующей записи, рекомендуется сначала проверите и исправьте ошибки во всех названиях, сохраняя окончательный результаты в поле Result. Затем переходите к названиям субъекта федерации и административного района. Обратите внимание, что в БД VMap0 данные сгруппированы географически, поэтому, если соседним нас. пунктам уже были назначены соответствующие названия субъектов, то велика вероятность, что проверяемые тоже находятся в этом субъекте. Обратите внимание, что многие детали разбираются на форуме.

Окончательные результаты отправьте по почте координатору проекта или приложите в тему на форуме.

Nam – оригинальное англоязычное название пункта из VMap0. Не изменяется.
Nam_rustlt – результат транслитерации поя Nam. Не изменяется.
Errors - количество возможных опечаток в названии, если = 0, значит найдено 100% соответствие в проверочной базе. Не изменяется.
Vars – существующие варианты для названий Nam_tlt, если Errors > 0. Не изменяется.
Subject, Rayon – субъект и административный район субъекта РФ. Берется из БД КЛАДР после точной идентификации объекта. Частично заполнено для уникальных названий со 100% совпадением с уникальным названием в БД КЛАДР.
Тype – тип населенного пункта. Берется из БД КЛАДР после точной идентификации объекта.
Nam_freq - число повторов данного названия по VMap0. Служит как справочное поле, в тех случаях когда названия разных населенных пунктов совпадают, проверьте правильность региона и района для данного пункта. Не изменяется.
Result – исправленный вариант названия, для записи окончательного правильного значения.
Comment – комментарии, если достоверно известно что населенный пункт на данный момент не существует или есть еще какая-то дополнительная информация.
Source - источник, ссылка или название

Пример полностью заполненной БД по Астраханской области.

Обсудить в форуме Комментариев — 56

Последнее обновление: May 24 2009


(Геокруг)

Если Вы обнаружили на сайте ошибку, выберите фрагмент текста и нажмите Ctrl+Enter