GIS-LAB

Географические информационные системы и дистанционное зондирование

Критика географической составляющей данных с Портала открытых данных Москвы

Максим Дубинин, 20.05.2013

Garbage in – Garbage out

Важным условием широкого использования открытых данных является их правильное содержание и хорошая документированность.  Широта использования обеспечивается в большой мере тем, что разработчику не нужно вникать в странности данных. Правильность содержания обеспечивается, если используются открытые форматы, стандарты на представления данных, если провайдер открытых данных готов быстро реагировать на экспертную критику.

Чем более специфичны данные, тем больше разработчиков потеряют интерес к разработке на их основе и тем быстрее они этот интерес потеряют, если столкнутся с такими странностями.

Здесь речь пойдет о единственном существенном источнике открытых данных – портале открытых данных г. Москвы. Речь пойдет об интересующей меня лично – геоинформационной составляющей. 132 из 152 наборов данных имеют атрибутику позволяющую сделать из данных – геоданные, попросту говоря, в данных есть координаты (дальше буду называть это просто “привязкой”).

Выдача не просто данных, а данных с координатами – большое достижение Д?Т г. Москвы, но забегая вперед хочу сказать, что я не удивлюсь, если Н?КТО не использует эти данные для гео-задач, так как в этой составляющей царит полный бардак.

Сразу после того, как портал был открыт, было обнаружено, что привязка у всех наборов находится в проекции Меркатора (EPSG:3857), что несомненно сразу стало барьером для некоторых разработчиков (пример), так как все резонно привыкли к географическим, а не проецированным координатам в EPSG: 4326. Разумеется, администрации портала об этом было сообщено и по почте и в твиттере.

Прошло почти 4 месяца, ситуация не только не исправилась, но и стала значительно хуже. ?так, что же не так:

  1. По прежнему отсутствует стандарт для названий полей для привязки. Поле долготы, например, может носить одно из следующих названий: 0_Shape, 0_X, 0_POINT_X, “0_POINT_X”, 0_SHAPE_WGS_84, Координата_X, 0_по_ X, 0_ X, 1_Координата Х.
  2. Формат представления привязки также может быть различным, это может быть WKT, могут быть раздельные поля X, Y. Эти два вида представлений могут присутствовать одновременно.
  3. Меркатор был плох, но по началу в данных он был повсеместен и было легко сделать сервис, который переводил все данные в нормальный вид (что и было быстро сделано). Теперь же в наборах может встретить данные в ТРЕХ разных системах координат, в добавок к двум широко распространенным, добавилась одна адская:
    • Старый и неправильный EPSG:3857
    • Правильный EPSG: 4326
    • Аццкая и неизвестная нормальным людям местная московская система координат (ПМСК 1, 2). Если переход из Меркатора в 4326 можно нагуглить за полчаса, то использовать данные в этой системе координат вы вообще не сможете без специальных знаний.
  4. Что еще хуже, в одном наборе данных могут встречаться данные в РАЗНЫХ системах координат. В одном наборе данных в одни и те же столбцы могут быть записаны координаты в EPSG:3857 и МГГТ. Пример (набор данных 545, все точки в ПМСК, одна – последняя в 4326): moscow-coordПроблема затрагивает очень многие наборы данных, из 152 такое смешивание присутствовало минимум в 65 наборах. Я написал небольшой скрипт проверяющий все координаты и их представления во всех наборах, результат его работы в виде таблицы можно скачать здесь. Приведу пример из него: moscow-coord2
    В этом примере 11 наборов данных, в 2 из них используется только EPSG: 4326 и в 2 EPSG: 3857, в оставшихся используется смесь EPSG: 4326 и ПМСК, в одном из них присутствуют записи, где координат вообще нет.
  5. Разумеется все эти нюансы нигде не документируются.

А как надо?

Очень просто:

  1. ?спользовать только одно представление координат, WKT или пару LAT,LON, любое, но одно.
  2. ?спользовать только СК EPSG:4326, никаких местных систем координат и Меркатора!
  3. ?спользовать стандартизованные названия полей для привязки.

С полным списком предложений по улучшению можно ознакомиться здесь.

Комментарии (12) к статье “Критика географической составляющей данных с Портала открытых данных Москвы”

  1. DimDim says:

    Полностью поддерживаю написанное!
    ? вот что странно: у них есть ЕГ?П (ед. геоинф. пространство Москвы), в котором все эти данные залиты и прекрасно отображаются на карте (правда, по-моему, в московской системе координат). Более того и семантика и названия полей там в более-менее приличном виде. ?значально всё это было в ArcGIS (сейчас не знаю). Почему они выкладывают всё наперекосяк не понятно.

    Хотя надо отдать должное Д?Ту – пару-тройку лет назад эти датасеты обошлись бы в очень много денег. А лет 5-6 назад только слой остановок наземного транспорта стоил 5 млн. руб.

    • А про остановки откуда информация? Скоро у меня и про это будет пост.

    • Ezhick says:

      С данными ЕГ?П есть какие-то сложности. Предполагаю, что лицензионного характера. Достоверной информации о том, кто и на каких основаниях является правообладателем этих данных я от Мэрии так и не смог добиться, хотя писал им неоднократно еще года два-три назад, когда очень хотелось эти данные получить для ОСМа.

      Поскольку и старый Электронный атлас (тот, про который вы пишите, на АркГисе), и бОльшую часть данных ЕГ?П делал нанятый неизвестным образом сторонний разработчик, подозреваю, что с ним были криво оформлены правоотношения и право на данные и сайт осталось у него. Во всяком случае других объяснений почему красивый и удобный сайт заменили новым отвратительным Атласом у меня нет.

      На вопрос об этом Д?Т не отвечает – кто же признается, что облажались и вбухали деньги в проект, результатом которого нельзя воспользоваться…

      • DimDim says:

        Не представляю себе гис-контору, которая отжала бы у московского правительства право, скажем, на слой УДС 🙂
        Думаю, всё гораздо прозаичней: нет условного человека , на которого можно повесить конвертацию координат. Я примерно представляю какую кашу они получают изо всех источников и приводят в божеский вид. К тому же если они выгружают данные из рабочего ЕГ?Па, то объекты на слоях более-менее мониторятся пользователями и ошибки исправляются. А правильность bulk-конвертацию 100500 объектов на 100+ слоёв никто проверять не будет.

        По большому счёту, пущай выкладывают в любой проекции, но сделают кратенькое описание, что это вот такая проекция, если хотите загрузить в Яндекс.Карты, то сделайте то и то, плюс может примеры кода или ссылки на библиотеки типа gdal или dotspatial. Этого же за глаза хватит 99% разработчиков?

        ? вообще не пугайте их 🙂 А то они начнут усложнять свои бизнес-процессы и данные начнут выкладывать медленнее или вообще на какие-нибудь слои забьют болт, потому что кто-то не сможет нарисовать полигон с дыркой 🙂

        Давайте лучше повесим на голосование какие слои кому нужны? ? отправим результаты в Д?Т.

        • На предложения “а давайте сделаем” здесь принято отвечать – “давайте, сделайте”.

          Что касается координат, то с ними всё просто, если понимать, что делаешь.

          • DimDim says:

            Я, честно говоря, тут на сайте не очень разбираюсь что-куда, но могу взять на себя вторую часть “давайте, сделайте” по обработке голосов и передаче в Д?Т.

          • для начала можно просто создать тему в форуме с голосовалкой, с голосованием в форуме есть нюанс, если запустить голосование, то при его редактировании (например добавить-убавить пункт) сбрасываются результаты. Поэтому имеет смысл сначала отдельно собирать предложения.

          • DimDim says:

            Продолжение темы по голосованию: http://gis-lab.info/forum/viewtopic.php?f=1&t=13715

  2. […] Я упомянул про проблему низкого качества госданных. Мы столкнулись с этим работая с базой участковых и Максим Дубинин написал про другую проблему. Проблему именно Московских данных — ошибок в координатах – http://gis-lab.info/blog/2013-05/coord-hell/ […]

  3. […] Выдача не просто данных, а данных с координатами — большое достижение Д?Т г. Москвы, но забегая вперед хочу сказать, что я не удивлюсь, если Н?КТО не использует эти данные для гео-задач, так как в этой составляющей царит полный бардак. (источник) […]

  4. […] Ворчание по поводу глюков в открытых московских данных было вызвано в меньшей мере желанием покритиковать, как многие подумали, но в большей желанием получить нормальные данные. Так как ждать их от поставщика боюсь пришлось бы еще долго, а данные открыты, были обновлены скрипты написанные ранее для учета новых проблем и произведена повторная нормализация всех наборов. […]

Оставьте комментарий


(Геокруг)

Если Вы обнаружили на сайте ошибку, выберите фрагмент текста и нажмите Ctrl+Enter