Кластерный анализ по координатам Реально ли?
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Кластерный анализ по координатам Реально ли?
У меня 18 000 адресов с их координатами. Надо их сгруппировать в места скопления народа. как вы думаете, реально ли использовать SPSS и провести кластер анализ? Есть у кого нибудь опыт?
-
- Гуру
- Сообщения: 810
- Зарегистрирован: 22 авг 2007, 14:58
- Репутация: 123
- Откуда: Казань
Re: Кластерный анализ по координатам Реально ли?
Чтобы ответить на вопрос, нужно сначала понять, а для чего вы их собиратесь разбивать на кластеры, т.е., какую задачу хотите решить...IMES писал(а):У меня 18 000 адресов с их координатами. Надо их сгруппировать в места скопления народа. как вы думаете, реально ли использовать SPSS и провести кластер анализ? Есть у кого нибудь опыт?
- Максим Дубинин
- MindingMyOwnBusiness
- Сообщения: 9129
- Зарегистрирован: 06 окт 2003, 20:20
- Репутация: 748
- Ваше звание: NextGIS
- Откуда: Москва
- Контактная информация:
Re: кластер анализ в гис
В SPSS не знаю, в R - вполне
http://casoilresource.lawr.ucdavis.edu/drupal/node/340
http://casoilresource.lawr.ucdavis.edu/drupal/node/340
пристегивайтесь, турбулентность прямо по курсу
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
Задача такая, чтоб рассчитать расстояние которое проходит каждый студент до школы, необходимо не всех считать, а как бы выделить места сосредоточения их. К примеру 3 или 4 группы адресов. И из их середины мерить расстояние. Короче все адреса сгруппировать в 4 кластера. И дальше с ними работать, как с показательными.
Надеюсь удалось объяснить.
Надеюсь удалось объяснить.
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
а что это за программа? Я что то с программированием не очень. Подскажите еще пару ключевых слов, какую инфо искать?в R - вполне
-
- Гуру
- Сообщения: 810
- Зарегистрирован: 22 авг 2007, 14:58
- Репутация: 123
- Откуда: Казань
Re: Кластерный анализ по координатам Реально ли?
В общих чертах понятно. Думаю, что SPSS может с этим справиться. Правда, если вы меряете расстояние не по прямой, а по дороге, то уже не уверен, что проблем не будет (как вы в SPPS дорожную сеть засуните?).IMES писал(а):Задача такая, чтоб рассчитать расстояние которое проходит каждый студент до школы, необходимо не всех считать, а как бы выделить места сосредоточения их. К примеру 3 или 4 группы адресов. И из их середины мерить расстояние. Короче все адреса сгруппировать в 4 кластера. И дальше с ними работать, как с показательными.
А вообще для такой задачи наверное, и не нужно использовать специальные статистические пакеты, на мой взгляд, задача решается средствами ГИС просто "на ура". Во всяком случае, я бы подошел немного с другой стороны:
1) Посмотрел как распределены точки на карте (почему вы берете именно 4 кластера?) может, вообще, они распределились равномерно, или центры видны "на глаз".
2) Построил бы карту плотности расселения (взял бы скользящее окно и подчитал число студентов, попавших в это окно) в результате получается карта по типу как "карта рельефа" (где "высота точки" - число студентов, живущих около нее). Дальше анализируем эту карту: смотрим области высокой и низкой плотности.
Преимущества подхода: а) наглядность б) легкость автоматизации процесса в) вы не ограничиваетесь наперед заданным числом кластеров
---
По поводу R:
Это язык, предназначенный для анализа данных. Не знаю, как SPSS, а R хорошо работает с пространственными данными и вашу задачу можно было бы решить там. Но, как я писал выше, мне кажется, есть способ лучше.IMES писал(а): а что это за программа? Я что то с программированием не очень. Подскажите еще пару ключевых слов, какую инфо искать?
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
Вы правы, количество кластеров дело плавающее.
в ГИСе у меня воззникла такая проблема: Я подгружаю таблицу с координатами, но у меня почему то на одну точку приходится несколько адресов. А не точка на каждый адрес. Может это от того, что геокодер дает данные с 6 знаками после запятой. То есть в гис картина не наглядная
Ф этот язык Р как его экзекутировать? Как с ним работать?
в ГИСе у меня воззникла такая проблема: Я подгружаю таблицу с координатами, но у меня почему то на одну точку приходится несколько адресов. А не точка на каждый адрес. Может это от того, что геокодер дает данные с 6 знаками после запятой. То есть в гис картина не наглядная

Ф этот язык Р как его экзекутировать? Как с ним работать?
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
В Р это надо установить GRASS или где етот Р?в R - вполне
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Кластерный анализ по координатам Реально ли?
По кластеризации необходимо прочитать :
Шаши - "Основы пространственных баз данных"
Потарусов Р.В. Курейчик В.М. «Задача одномерной упаковки и ее использование при решении задачи маршрутизации автотранспорта».
Т.С. Емельянова, В. М. Курейчик
РЕШЕНИЕ ЭТАЛОННЫХ ТРАНСПОРТНЫХ ЗАДАЧ С КЛАСТЕРНЫМ РАСПОЛОЖЕНИЕМ КЛИЕНТОВ С ИСПОЛЬЗОВАНИЕМ ГЕНЕТИЧЕСКИХ МЕТОДОВ
Jeffrey Baumes, Mark Goldberg
Finding communities by clustering a graph into overlapping subgraphs
http://www.cs.rpi.edu/~goldberg/publica ... s-clus.doc
Efficient Identification of Overlapping Communities
http://www.cs.rpi.edu/~goldberg/publica ... -clust.pdf
http://docs.huihoo.com/boost/1-33-1/lib ... tents.html
В замечательной библиотеке http://www.boost.org/
есть алгоритмы кластеризации
http://docs.huihoo.com/boost/1-33-1/lib ... ering.html
http://lists.boost.org/boost-commit/2007/08/1085.php
http://www.foss4g2007.org/plenaries/lig ... 010-04.ppt
Из презентации понятно, что решений много, я пока отрабатываю следующее решение
PostGIS/PostgresSQL + Pgrouting + GRASS + QGIS+ дополнительные библиотеки (boost, ming …)
Шаши - "Основы пространственных баз данных"
Потарусов Р.В. Курейчик В.М. «Задача одномерной упаковки и ее использование при решении задачи маршрутизации автотранспорта».
Т.С. Емельянова, В. М. Курейчик
РЕШЕНИЕ ЭТАЛОННЫХ ТРАНСПОРТНЫХ ЗАДАЧ С КЛАСТЕРНЫМ РАСПОЛОЖЕНИЕМ КЛИЕНТОВ С ИСПОЛЬЗОВАНИЕМ ГЕНЕТИЧЕСКИХ МЕТОДОВ
Jeffrey Baumes, Mark Goldberg
Finding communities by clustering a graph into overlapping subgraphs
http://www.cs.rpi.edu/~goldberg/publica ... s-clus.doc
Efficient Identification of Overlapping Communities
http://www.cs.rpi.edu/~goldberg/publica ... -clust.pdf
http://docs.huihoo.com/boost/1-33-1/lib ... tents.html
В замечательной библиотеке http://www.boost.org/
есть алгоритмы кластеризации
http://docs.huihoo.com/boost/1-33-1/lib ... ering.html
http://lists.boost.org/boost-commit/2007/08/1085.php
http://www.foss4g2007.org/plenaries/lig ... 010-04.ppt
Из презентации понятно, что решений много, я пока отрабатываю следующее решение
PostGIS/PostgresSQL + Pgrouting + GRASS + QGIS+ дополнительные библиотеки (boost, ming …)
-
- Активный участник
- Сообщения: 138
- Зарегистрирован: 18 авг 2005, 18:05
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
А мне вот не совсем понятна задачаIMES писал(а):Задача такая, чтоб рассчитать расстояние которое проходит каждый студент до школы, необходимо не всех считать, а как бы выделить места сосредоточения их.

1. Иметь адреса проживания всех школьников - они я так понимаю есть - 18 000, хотя это только адреса, а самих школьников может быть больше (в одном доме может быть несколько школьников). Сразу забегая вперед - вы говорите, что подгружая геокодированную таблицу, несколько адресов ложиться в одну точку, отсюда есть вывод, что геокодированные адреса имееют одинаковые координаты, а тут два варианта: во-первых, вы не сказали, что 18000 адресов являются уникальными, а во-вторых, не факт, что все адреса из вашей геокодируемой таблицы присутствуют в геокоде, к которому осуществлялось геокодирование и у них общий стандарт и отсутствуют семантические ошибки, здесь имеют место быть определннные правила геокодирования, когда, например, при отсутствии в геокоде необходимого адреса геокодирование происходит к ближайшему дому по номеру или ближайшему по четному/ничетному, случаев много бывает. немного приходится работать с этим
2. Знать в какую конкретно школу ходит каждый школьник (из условия) и местоположение каждой школы
3. Иметь пешеходную дорожную сеть
В целом для такой формулировки задачи все за исключением некоторых ограничений, например, не все ходят пешком, кто-то добирается на общественном транспорте или личном.
Поправьте если я задачу не так понял, чтобы дальше можно было говорить о кластерах (причем пространственных (географических))
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Кластерный анализ по координатам Реально ли?
Вы писали:
По существу ваших вопросов. Меня удивляет, что никто не обратил внимание на то, что само Выше занятие
(геокодирование) для получения адресного плана Кельна не совсем верный путь.
Итак задача: получить адресный план Кельна с координатами.
Тут два варианта: поиск свободно-распространяемых карт и получение наиболее точной карты Кельна из официального источника по запросу.
Если Вам не нужна высокая точность и достоверность наберите в Google: Koeln map download (Übersetzen Sie ins Deutsche)
Думаю Вы найдете несколко вариантов готовых карт.
Есть еще вариант :
Заходим на http://www.openstreetmap.org/ находим Koeln выполяем экспорт в “Данные OpenStreetMap XML”
Координаты 7 знаков после запятой, название улицы и номер дома в наличии.
Затем конвертируем из OSM в нужный Вам формат.
И еще вопрос как при числе жителей около 1 млн человек Вас интересует только :
с новыми адресами.Я бы исходил от адресного плана города и попытался синхронизировать с известными Вам адресами школьников.Все необходимо решать в динамике, т.е. имеем как минимум 3 слоя: 1 - адресный план города, 2- слой адресов школьников, 3- слой школ. Нужен ли Вам транспортный слой - это еще вопрос.
Я решал подобуную задачку с детскими садиками города. Вопрос стоял об оптимизации закрепления детей за дошкольными заведениями при известном их адресе.
Успеха !
Конечно интересно. Напишите, что Вы использовали конкретно.всем кому интересно. Все геокодеры не оченьОни дают коотдинаты, только с 6 цифрами после запятой (50,123456). Этого недостаточно. Чтоб каждому дому свою координату дать нада 7 цифр после запятой. А так получается что50 домам на одной улице даны одни о те же координаты. Неточненко! Буду благодарн...
По существу ваших вопросов. Меня удивляет, что никто не обратил внимание на то, что само Выше занятие
(геокодирование) для получения адресного плана Кельна не совсем верный путь.
Итак задача: получить адресный план Кельна с координатами.
Тут два варианта: поиск свободно-распространяемых карт и получение наиболее точной карты Кельна из официального источника по запросу.
Если Вам не нужна высокая точность и достоверность наберите в Google: Koeln map download (Übersetzen Sie ins Deutsche)
Думаю Вы найдете несколко вариантов готовых карт.
Есть еще вариант :
Заходим на http://www.openstreetmap.org/ находим Koeln выполяем экспорт в “Данные OpenStreetMap XML”
Код: Выделить всё
<node id="294116840" lat="50.9273543" lon="6.9440338" version="4" changeset="1192868" user="Tuttle" uid="62510" visible="true" timestamp="2009-05-14T21:43:54Z">
<tag k="name" v="Sozialistische Selbsthilfe K├╢ln"/>
<tag k="addr:housenumber" v="37"/>
<tag k="addr:street" v="Salierring"/>
<tag k="addr:city" v="Koeln"/>
<tag k="addr:postcode" v="50677"/>
<tag k="addr:country" v="DE"/>
</node>
<node id="277941644" lat="50.9299091" lon="6.9445661" version="8" changeset="1193323" user="Tuttle" uid="62510" visible="true" timestamp="2009-05-14T22:37:18Z">
<tag k="name" v="Kieser Training"/>
<tag k="addr:housenumber" v="6"/>
<tag k="postal_code" v="50676"/>
<tag k="addr:street" v="Neue Weyerstra├Яe"/>
<tag k="addr:city" v="Koeln"/>
<tag k="addr:postcode" v="50676"/>
<tag k="operator" v="Kieser Training"/>
<tag k="leisure" v="sports_centre"/>
<tag k="addr:country" v="DE"/>
</node>
Затем конвертируем из OSM в нужный Вам формат.
И еще вопрос как при числе жителей около 1 млн человек Вас интересует только :
Это не более трети всего адресного плана. Непонятно. А если в следующем учебном году появятся школьникиУ меня 18 000 адресов с их координатами
с новыми адресами.Я бы исходил от адресного плана города и попытался синхронизировать с известными Вам адресами школьников.Все необходимо решать в динамике, т.е. имеем как минимум 3 слоя: 1 - адресный план города, 2- слой адресов школьников, 3- слой школ. Нужен ли Вам транспортный слой - это еще вопрос.
Я решал подобуную задачку с детскими садиками города. Вопрос стоял об оптимизации закрепления детей за дошкольными заведениями при известном их адресе.
Успеха !
-
- Активный участник
- Сообщения: 138
- Зарегистрирован: 18 авг 2005, 18:05
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
А по мне так задача заключается не в получении адресного плана, а в первоначальном поиске наилучшего геокода (адресного плана) и геокодирования к нему имеющихся 18000 адресов проживания школьников. То что адресные планы не идеальны - это совершенно естественно (особенно для России, на Западе думаю можно найти), точно также естественно, что и не идеальны геокодируемые таблицы (адреса школьников), ну и естественно нужно смотреть на алгоритмы геокодирования каждого используемого сервиса геокодирования.bim2010 писал(а): Меня удивляет, что никто не обратил внимание на то, что само Выше занятие
(геокодирование) для получения адресного плана Кельна не совсем верный путь.
Итак задача: получить адресный план Кельна с координатами.
Для поверхностной модели - не нужен, можно использовать евклидовы расстояния. Для точной модели - учитывающей реальное перемещение жителей, с учетом естественных и антропогенных преград - нужен.bim2010 писал(а): Нужен ли Вам транспортный слой - это еще вопрос.
Скажите, а чем закончилось исследование, просто личный интерес и в какой стране оно проходило?bim2010 писал(а):Я решал подобуную задачку с детскими садиками города. Вопрос стоял об оптимизации закрепления детей за дошкольными заведениями при известном их адресе.
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
Ответ Каминский Вадим
1. Адреса студентов анонимые есть. Уникальный адрес на каждого студента. То есть сколько студентов столько и адресов. В одном доме действительлно может быль несколько студентов (например общежитие).
2. Я использовала http://www.juiceanalytics.com/writing/e ... g-tool-v2/
Сейчас я сделала руками координаты с гугл в соседнюю колонку. Координаты совпадают только до 1 десятичной доли. Дальше нет.
3. Несколько адресов ложатся в одну точку, причем дому напрмимер 10 даны такие же координаты как и дому 110 на одной и той же улице. Этого не может быть, так как после запятой 6 знаков в координате.Должна быть точность до 11 см. А расстояние между домом 10 и 110 всяко больше.
4. Конкретную школу я конечно же зная, я в ней сижу. Шейп файлы каждого здания я уже сделала.
5. Как background у меня растр с SAS.Планета. На нем есть улицы.
на даннный момент я опять пытаюсь геокодировать адреса. Потом перейду к кластерам.
1. Адреса студентов анонимые есть. Уникальный адрес на каждого студента. То есть сколько студентов столько и адресов. В одном доме действительлно может быль несколько студентов (например общежитие).
2. Я использовала http://www.juiceanalytics.com/writing/e ... g-tool-v2/
Сейчас я сделала руками координаты с гугл в соседнюю колонку. Координаты совпадают только до 1 десятичной доли. Дальше нет.
3. Несколько адресов ложатся в одну точку, причем дому напрмимер 10 даны такие же координаты как и дому 110 на одной и той же улице. Этого не может быть, так как после запятой 6 знаков в координате.Должна быть точность до 11 см. А расстояние между домом 10 и 110 всяко больше.
4. Конкретную школу я конечно же зная, я в ней сижу. Шейп файлы каждого здания я уже сделала.
5. Как background у меня растр с SAS.Планета. На нем есть улицы.
на даннный момент я опять пытаюсь геокодировать адреса. Потом перейду к кластерам.
-
- Участник
- Сообщения: 83
- Зарегистрирован: 20 апр 2009, 17:11
- Репутация: 0
Re: Кластерный анализ по координатам Реально ли?
ответ bim2010
1. свободно-распространяемых карт тут нет, я в кельне.
2. получение наиболее точной карты Кельна из официального источника по запросу стоит более 10 000 евро. Даже геокодировать мои адреса одноразово требуют 3000 евро! 15 центов за адрес!!! Это конечно же не подходит. В гуугле уже искала – нет их.
Пришлось самой делать карту с SAS.Планета. (только для себя, чтоб имет улицы)
Меня интересует только 18 000 адресов студентов нашей школы. Шейп файлы всез зданий школ я уже сделала и студенты поделены на группы, которые ходят в определенное здание.
В общем на данный момент проблема пока дать координаты адресам
С с http://www.openstreetmap.org/ это все равно придется по одному адресу геокодировать? Это долго .... По одному можно и тут http://www.active-value.de/geocoder/
мне бы геокодер чтоб таблицу сразу
1. свободно-распространяемых карт тут нет, я в кельне.
2. получение наиболее точной карты Кельна из официального источника по запросу стоит более 10 000 евро. Даже геокодировать мои адреса одноразово требуют 3000 евро! 15 центов за адрес!!! Это конечно же не подходит. В гуугле уже искала – нет их.
Пришлось самой делать карту с SAS.Планета. (только для себя, чтоб имет улицы)
Меня интересует только 18 000 адресов студентов нашей школы. Шейп файлы всез зданий школ я уже сделала и студенты поделены на группы, которые ходят в определенное здание.
В общем на данный момент проблема пока дать координаты адресам
С с http://www.openstreetmap.org/ это все равно придется по одному адресу геокодировать? Это долго .... По одному можно и тут http://www.active-value.de/geocoder/
мне бы геокодер чтоб таблицу сразу
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Кластерный анализ по координатам Реально ли?
Вы не поняли. Я не предлагаю на http://www.openstreetmap.org/ наносить отдельный слой 18000 адресов вручную. Делаем свою таблицу на основе OSM – адресный план Кельн (все что есть).
Там поля например:
addr:street" v="Salierring"
addr:housenumber" v="37"
lat="50.9273543"
lon="6.9440338"
У Вас как я понял есть база с адресами школьников.
1.Фамилия школьника
2.Street
3.Housenumber
Ну и какая проблема через Street и Housenumber перенести координаты в базу школьников автоматически написав несколько строк кода. Процентов 90 получите одним движением. Остальное это ошибки в названиях улиц и отсутствие части housenumber в OSM.
Там поля например:
addr:street" v="Salierring"
addr:housenumber" v="37"
lat="50.9273543"
lon="6.9440338"
У Вас как я понял есть база с адресами школьников.
1.Фамилия школьника
2.Street
3.Housenumber
Ну и какая проблема через Street и Housenumber перенести координаты в базу школьников автоматически написав несколько строк кода. Процентов 90 получите одним движением. Остальное это ошибки в названиях улиц и отсутствие части housenumber в OSM.
Кто сейчас на конференции
Сейчас этот форум просматривают: Amazon [Bot] и 1 гость