Кластерный анализ по координатам Реально ли?

Вопросы по нескольким пакетам сразу, или вопросы, которые непонятно к какой ГИС отнести
IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Кластерный анализ по координатам Реально ли?

Сообщение IMES » 02 июн 2009, 13:50

У меня 18 000 адресов с их координатами. Надо их сгруппировать в места скопления народа. как вы думаете, реально ли использовать SPSS и провести кластер анализ? Есть у кого нибудь опыт?

KolesovDmitry
Гуру
Сообщения: 810
Зарегистрирован: 22 авг 2007, 14:58
Репутация: 123
Откуда: Казань

Re: Кластерный анализ по координатам Реально ли?

Сообщение KolesovDmitry » 02 июн 2009, 14:20

IMES писал(а):У меня 18 000 адресов с их координатами. Надо их сгруппировать в места скопления народа. как вы думаете, реально ли использовать SPSS и провести кластер анализ? Есть у кого нибудь опыт?
Чтобы ответить на вопрос, нужно сначала понять, а для чего вы их собиратесь разбивать на кластеры, т.е., какую задачу хотите решить...

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9129
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 748
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: кластер анализ в гис

Сообщение Максим Дубинин » 02 июн 2009, 23:34

В SPSS не знаю, в R - вполне
http://casoilresource.lawr.ucdavis.edu/drupal/node/340
пристегивайтесь, турбулентность прямо по курсу

IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение IMES » 03 июн 2009, 15:16

Задача такая, чтоб рассчитать расстояние которое проходит каждый студент до школы, необходимо не всех считать, а как бы выделить места сосредоточения их. К примеру 3 или 4 группы адресов. И из их середины мерить расстояние. Короче все адреса сгруппировать в 4 кластера. И дальше с ними работать, как с показательными.
Надеюсь удалось объяснить.

IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение IMES » 03 июн 2009, 15:24

в R - вполне
а что это за программа? Я что то с программированием не очень. Подскажите еще пару ключевых слов, какую инфо искать?

KolesovDmitry
Гуру
Сообщения: 810
Зарегистрирован: 22 авг 2007, 14:58
Репутация: 123
Откуда: Казань

Re: Кластерный анализ по координатам Реально ли?

Сообщение KolesovDmitry » 03 июн 2009, 15:44

IMES писал(а):Задача такая, чтоб рассчитать расстояние которое проходит каждый студент до школы, необходимо не всех считать, а как бы выделить места сосредоточения их. К примеру 3 или 4 группы адресов. И из их середины мерить расстояние. Короче все адреса сгруппировать в 4 кластера. И дальше с ними работать, как с показательными.
В общих чертах понятно. Думаю, что SPSS может с этим справиться. Правда, если вы меряете расстояние не по прямой, а по дороге, то уже не уверен, что проблем не будет (как вы в SPPS дорожную сеть засуните?).

А вообще для такой задачи наверное, и не нужно использовать специальные статистические пакеты, на мой взгляд, задача решается средствами ГИС просто "на ура". Во всяком случае, я бы подошел немного с другой стороны:
1) Посмотрел как распределены точки на карте (почему вы берете именно 4 кластера?) может, вообще, они распределились равномерно, или центры видны "на глаз".
2) Построил бы карту плотности расселения (взял бы скользящее окно и подчитал число студентов, попавших в это окно) в результате получается карта по типу как "карта рельефа" (где "высота точки" - число студентов, живущих около нее). Дальше анализируем эту карту: смотрим области высокой и низкой плотности.
Преимущества подхода: а) наглядность б) легкость автоматизации процесса в) вы не ограничиваетесь наперед заданным числом кластеров

---
По поводу R:
IMES писал(а): а что это за программа? Я что то с программированием не очень. Подскажите еще пару ключевых слов, какую инфо искать?
Это язык, предназначенный для анализа данных. Не знаю, как SPSS, а R хорошо работает с пространственными данными и вашу задачу можно было бы решить там. Но, как я писал выше, мне кажется, есть способ лучше.

IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение IMES » 03 июн 2009, 16:03

Вы правы, количество кластеров дело плавающее.

в ГИСе у меня воззникла такая проблема: Я подгружаю таблицу с координатами, но у меня почему то на одну точку приходится несколько адресов. А не точка на каждый адрес. Может это от того, что геокодер дает данные с 6 знаками после запятой. То есть в гис картина не наглядная :(
Ф этот язык Р как его экзекутировать? Как с ним работать?

IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение IMES » 03 июн 2009, 17:49

в R - вполне
В Р это надо установить GRASS или где етот Р?

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Кластерный анализ по координатам Реально ли?

Сообщение bim2010 » 03 июн 2009, 23:34

По кластеризации необходимо прочитать :
Шаши - "Основы пространственных баз данных"

Потарусов Р.В. Курейчик В.М. «Задача одномерной упаковки и ее использование при решении задачи маршрутизации автотранспорта».

Т.С. Емельянова, В. М. Курейчик
РЕШЕНИЕ ЭТАЛОННЫХ ТРАНСПОРТНЫХ ЗАДАЧ С КЛАСТЕРНЫМ РАСПОЛОЖЕНИЕМ КЛИЕНТОВ С ИСПОЛЬЗОВАНИЕМ ГЕНЕТИЧЕСКИХ МЕТОДОВ

Jeffrey Baumes, Mark Goldberg
Finding communities by clustering a graph into overlapping subgraphs
http://www.cs.rpi.edu/~goldberg/publica ... s-clus.doc
Efficient Identification of Overlapping Communities
http://www.cs.rpi.edu/~goldberg/publica ... -clust.pdf

http://docs.huihoo.com/boost/1-33-1/lib ... tents.html
В замечательной библиотеке http://www.boost.org/
есть алгоритмы кластеризации
http://docs.huihoo.com/boost/1-33-1/lib ... ering.html
http://lists.boost.org/boost-commit/2007/08/1085.php


http://www.foss4g2007.org/plenaries/lig ... 010-04.ppt
Из презентации понятно, что решений много, я пока отрабатываю следующее решение
PostGIS/PostgresSQL + Pgrouting + GRASS + QGIS+ дополнительные библиотеки (boost, ming …)

Каминский Вадим
Активный участник
Сообщения: 138
Зарегистрирован: 18 авг 2005, 18:05
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение Каминский Вадим » 04 июн 2009, 18:54

IMES писал(а):Задача такая, чтоб рассчитать расстояние которое проходит каждый студент до школы, необходимо не всех считать, а как бы выделить места сосредоточения их.
А мне вот не совсем понятна задача :?: Уж очень размытое условие и мало входных данных. Для того, чтобы рассчитать расстояние которое проходит каждый студент (школьник) до школы нужно:
1. Иметь адреса проживания всех школьников - они я так понимаю есть - 18 000, хотя это только адреса, а самих школьников может быть больше (в одном доме может быть несколько школьников). Сразу забегая вперед - вы говорите, что подгружая геокодированную таблицу, несколько адресов ложиться в одну точку, отсюда есть вывод, что геокодированные адреса имееют одинаковые координаты, а тут два варианта: во-первых, вы не сказали, что 18000 адресов являются уникальными, а во-вторых, не факт, что все адреса из вашей геокодируемой таблицы присутствуют в геокоде, к которому осуществлялось геокодирование и у них общий стандарт и отсутствуют семантические ошибки, здесь имеют место быть определннные правила геокодирования, когда, например, при отсутствии в геокоде необходимого адреса геокодирование происходит к ближайшему дому по номеру или ближайшему по четному/ничетному, случаев много бывает. немного приходится работать с этим
2. Знать в какую конкретно школу ходит каждый школьник (из условия) и местоположение каждой школы
3. Иметь пешеходную дорожную сеть
В целом для такой формулировки задачи все за исключением некоторых ограничений, например, не все ходят пешком, кто-то добирается на общественном транспорте или личном.
Поправьте если я задачу не так понял, чтобы дальше можно было говорить о кластерах (причем пространственных (географических))

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Кластерный анализ по координатам Реально ли?

Сообщение bim2010 » 05 июн 2009, 07:42

Вы писали:
всем кому интересно. Все геокодеры не очень :( Они дают коотдинаты, только с 6 цифрами после запятой (50,123456). Этого недостаточно. Чтоб каждому дому свою координату дать нада 7 цифр после запятой. А так получается что50 домам на одной улице даны одни о те же координаты. Неточненко! Буду благодарн...
Конечно интересно. Напишите, что Вы использовали конкретно.
По существу ваших вопросов. Меня удивляет, что никто не обратил внимание на то, что само Выше занятие
(геокодирование) для получения адресного плана Кельна не совсем верный путь.
Итак задача: получить адресный план Кельна с координатами.
Тут два варианта: поиск свободно-распространяемых карт и получение наиболее точной карты Кельна из официального источника по запросу.
Если Вам не нужна высокая точность и достоверность наберите в Google: Koeln map download (Übersetzen Sie ins Deutsche)
Думаю Вы найдете несколко вариантов готовых карт.
Есть еще вариант :
Заходим на http://www.openstreetmap.org/ находим Koeln выполяем экспорт в “Данные OpenStreetMap XML”

Код: Выделить всё

  <node id="294116840" lat="50.9273543" lon="6.9440338" version="4" changeset="1192868" user="Tuttle" uid="62510" visible="true" timestamp="2009-05-14T21:43:54Z">
    <tag k="name" v="Sozialistische Selbsthilfe K├╢ln"/>
    <tag k="addr:housenumber" v="37"/>
    <tag k="addr:street" v="Salierring"/>
    <tag k="addr:city" v="Koeln"/>
    <tag k="addr:postcode" v="50677"/>
    <tag k="addr:country" v="DE"/>
  </node>
  <node id="277941644" lat="50.9299091" lon="6.9445661" version="8" changeset="1193323" user="Tuttle" uid="62510" visible="true" timestamp="2009-05-14T22:37:18Z">
    <tag k="name" v="Kieser Training"/>
    <tag k="addr:housenumber" v="6"/>
    <tag k="postal_code" v="50676"/>
    <tag k="addr:street" v="Neue Weyerstra├Яe"/>
    <tag k="addr:city" v="Koeln"/>
    <tag k="addr:postcode" v="50676"/>
    <tag k="operator" v="Kieser Training"/>
    <tag k="leisure" v="sports_centre"/>
    <tag k="addr:country" v="DE"/>
  </node>
Координаты 7 знаков после запятой, название улицы и номер дома в наличии.
Затем конвертируем из OSM в нужный Вам формат.
И еще вопрос как при числе жителей около 1 млн человек Вас интересует только :
У меня 18 000 адресов с их координатами
Это не более трети всего адресного плана. Непонятно. А если в следующем учебном году появятся школьники
с новыми адресами.Я бы исходил от адресного плана города и попытался синхронизировать с известными Вам адресами школьников.Все необходимо решать в динамике, т.е. имеем как минимум 3 слоя: 1 - адресный план города, 2- слой адресов школьников, 3- слой школ. Нужен ли Вам транспортный слой - это еще вопрос.
Я решал подобуную задачку с детскими садиками города. Вопрос стоял об оптимизации закрепления детей за дошкольными заведениями при известном их адресе.

Успеха !

Каминский Вадим
Активный участник
Сообщения: 138
Зарегистрирован: 18 авг 2005, 18:05
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение Каминский Вадим » 05 июн 2009, 11:44

bim2010 писал(а): Меня удивляет, что никто не обратил внимание на то, что само Выше занятие
(геокодирование) для получения адресного плана Кельна не совсем верный путь.
Итак задача: получить адресный план Кельна с координатами.
А по мне так задача заключается не в получении адресного плана, а в первоначальном поиске наилучшего геокода (адресного плана) и геокодирования к нему имеющихся 18000 адресов проживания школьников. То что адресные планы не идеальны - это совершенно естественно (особенно для России, на Западе думаю можно найти), точно также естественно, что и не идеальны геокодируемые таблицы (адреса школьников), ну и естественно нужно смотреть на алгоритмы геокодирования каждого используемого сервиса геокодирования.
bim2010 писал(а): Нужен ли Вам транспортный слой - это еще вопрос.
Для поверхностной модели - не нужен, можно использовать евклидовы расстояния. Для точной модели - учитывающей реальное перемещение жителей, с учетом естественных и антропогенных преград - нужен.

bim2010 писал(а):Я решал подобуную задачку с детскими садиками города. Вопрос стоял об оптимизации закрепления детей за дошкольными заведениями при известном их адресе.
Скажите, а чем закончилось исследование, просто личный интерес и в какой стране оно проходило?

IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение IMES » 05 июн 2009, 11:53

Ответ Каминский Вадим

1. Адреса студентов анонимые есть. Уникальный адрес на каждого студента. То есть сколько студентов столько и адресов. В одном доме действительлно может быль несколько студентов (например общежитие).
2. Я использовала http://www.juiceanalytics.com/writing/e ... g-tool-v2/
Сейчас я сделала руками координаты с гугл в соседнюю колонку. Координаты совпадают только до 1 десятичной доли. Дальше нет.
3. Несколько адресов ложатся в одну точку, причем дому напрмимер 10 даны такие же координаты как и дому 110 на одной и той же улице. Этого не может быть, так как после запятой 6 знаков в координате.Должна быть точность до 11 см. А расстояние между домом 10 и 110 всяко больше.
4. Конкретную школу я конечно же зная, я в ней сижу. Шейп файлы каждого здания я уже сделала.
5. Как background у меня растр с SAS.Планета. На нем есть улицы.

на даннный момент я опять пытаюсь геокодировать адреса. Потом перейду к кластерам.

IMES
Участник
Сообщения: 83
Зарегистрирован: 20 апр 2009, 17:11
Репутация: 0

Re: Кластерный анализ по координатам Реально ли?

Сообщение IMES » 05 июн 2009, 12:09

ответ bim2010
1. свободно-распространяемых карт тут нет, я в кельне.
2. получение наиболее точной карты Кельна из официального источника по запросу стоит более 10 000 евро. Даже геокодировать мои адреса одноразово требуют 3000 евро! 15 центов за адрес!!! Это конечно же не подходит. В гуугле уже искала – нет их.

Пришлось самой делать карту с SAS.Планета. (только для себя, чтоб имет улицы)

Меня интересует только 18 000 адресов студентов нашей школы. Шейп файлы всез зданий школ я уже сделала и студенты поделены на группы, которые ходят в определенное здание.

В общем на данный момент проблема пока дать координаты адресам

С с http://www.openstreetmap.org/ это все равно придется по одному адресу геокодировать? Это долго .... По одному можно и тут http://www.active-value.de/geocoder/

мне бы геокодер чтоб таблицу сразу

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Кластерный анализ по координатам Реально ли?

Сообщение bim2010 » 05 июн 2009, 12:57

Вы не поняли. Я не предлагаю на http://www.openstreetmap.org/ наносить отдельный слой 18000 адресов вручную. Делаем свою таблицу на основе OSM – адресный план Кельн (все что есть).
Там поля например:
addr:street" v="Salierring"
addr:housenumber" v="37"
lat="50.9273543"
lon="6.9440338"
У Вас как я понял есть база с адресами школьников.
1.Фамилия школьника
2.Street
3.Housenumber
Ну и какая проблема через Street и Housenumber перенести координаты в базу школьников автоматически написав несколько строк кода. Процентов 90 получите одним движением. Остальное это ошибки в названиях улиц и отсутствие части housenumber в OSM.

Ответить

Вернуться в «Общий - ПО»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость