оценка точности измерения точечных данных

Вопросы общего характера по ГИС и дистанционному зондированию, не связанные с конкретным ПО.
Анна
Завсегдатай
Сообщения: 386
Зарегистрирован: 07 фев 2004, 14:31
Репутация: 7
Откуда: Лозанна
Контактная информация:

оценка точности измерения точечных данных

Сообщение Анна » 15 дек 2009, 20:51

Добрый день все участникам форума,

Хочу поднять следующую тему для обсуждения - оценка точности (как в смысле accuracy, так и в смысле precision) точечных данных.
Итак, для начала опишу ситуацию, которая регулярно возникает при сборе полевых данных (например, точек встреч видов). Представим ситуацию, в которой помимо тех точек, который удалось отснять в поле с помощью GPS (для которого известна и точность и сами координаты), нужно обработать следующие источники:
1) атласы различного масштаба с нанесенными точками (при этом точки могут выглядеть не только как точки, но и как символ зверушки или кустика)
2) гербарные материалы двух видов:
- известно положение до района
- известно положения до района со вспомогательным описанием (2 км на СВ от с. Покровка, на бровке карьера)
3) данные междунароной базы данных (типа GBIF), где помимо выше приведенных вариантов данные очень часто представлены в виде регулярной сети измерений какого-то шага (например 10 на 10 км), при этом (кстати кто-то работал с такими атласами? или делал сам?) остается не до конца очевидным, является наличие точки в в ячейке показателем того, что точка встретилась в любом месте ячейки хотя бы один раз или (!) измерения проводились на узлах сетки (думаю чаще всего первое, но в целом - не совсем ясно).

Теперь собственно задача, нужно каким-то образом прописать точность данных (а также uncertainty) в каждой точке. Какие могут быть варианты решений? интересует и accuracy и precision - потому что как очевидно из многообразия источников данных в одних точным будет одно, в других другое, в третьих все будет неточным.

У кого какие мысли и опыт по этому поводу, поделитесь, господа?:)
Последний раз редактировалось Анна 15 дек 2009, 22:06, всего редактировалось 1 раз.

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9129
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 748
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Максим Дубинин » 15 дек 2009, 22:06

Пара наводящих вопросов:

Так что же тебе нужно получить в конце, что-то вроде таблицы, где каждой точек назначен качественный класс или количественный показатель точности?
Правильно ли я понял, что в результате ты хочешь использовать точки из разных источников вместе для некоторого анализа?
пристегивайтесь, турбулентность прямо по курсу

Анна
Завсегдатай
Сообщения: 386
Зарегистрирован: 07 фев 2004, 14:31
Репутация: 7
Откуда: Лозанна
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Анна » 15 дек 2009, 22:25

Да, в идеале хорошо бы иметь какой-то класс точности, но можно обойтись и другой размерностью (например, масштаб, или размер ячейки грида для которой точка будет информативна). Хочется иметь градацию - чтобы можно было бы отбирать, например, точки с точностью для анализа на определенном масштабе
Вот еще - качественный показатель (плохо\хорошо на глазок) не пойдет - нужна количественная оценка, которую потом по желанию можно переклассифицировать на какие-то категории

KolesovDmitry
Гуру
Сообщения: 810
Зарегистрирован: 22 авг 2007, 14:58
Репутация: 123
Откуда: Казань

Re: оценка точности измерения точечных данных

Сообщение KolesovDmitry » 16 дек 2009, 08:33

Анна писал(а):Хочу поднять следующую тему для обсуждения - оценка точности.
...
Представим ситуацию, в которой помимо тех точек, который удалось отснять в поле с помощью GPS (для которого известна и точность и сами координаты), нужно обработать следующие источники:
1) атласы различного масштаба с нанесенными точками
2) гербарные материалы двух видов:
- известно положение до района
- известно положения до района со вспомогательным описанием (2 км на СВ от с. Покровка, на бровке карьера)
3) данные междунароной базы данных

нужно каким-то образом прописать точность данных (а также uncertainty) в каждой точке.

У кого какие мысли и опыт по этому поводу, поделитесь, господа?:)
Я бы сделал вот как: во всех описанных случаях имеем дело не с точечным объектом в чистом виде, а некоторой оценкой его ожидаемого положения. Фактически, имеем дело не с объектами, а определенными вероятностями (в житейском смысле, не математическом) встретить объект в заданной точке. При этом, чем дальше мы уходим от этой точки, тем меньше шансов наткнуться на объект.
Поэтому я предлагаю перейти от пообъектного описания задачи к ее вероятностной модели (уже в математическом смысле), т.е. от векторной формы перейти к растровой, когда в ячейках растра будет храниться вероятность нахождения интересующего объекта в заданной ячейке. (В простейшем случае, без учета особенностей местности и др. будем иметь нормально распределенную величину, описываемую функцией колоколообразной формы: максимум в точке, отмеченной на карте и постепенное понижение функции к краям участка).
Таким образом для каждого вида объектов нужно будет построить растровую карту и обрабатывать данные при помощи аппарата мат.статистики.

Анна
Завсегдатай
Сообщения: 386
Зарегистрирован: 07 фев 2004, 14:31
Репутация: 7
Откуда: Лозанна
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Анна » 16 дек 2009, 11:38

Хм, очень часто точки как таковой у нас нет. Например, известно, что вид А встретился в Советском районе Иркутской области. Какая же тут вероятность в ячейках грида? 100% на территории района? и 0 - за пределами? а какого размера делать ячейку? и потом, еще такой момент - когда мы переходим к вероятности встречи - это уже самая настоящая модель, которую простым гауссовым распределением не опишешь, и обычно эта задача следующего уровня (на основе точек присутствия вида и каких-то переменных среды построить модель вероятности встречи вида - для этого целый спектр всяких подходов существует).
Мне бы хотелось получить именно оценку точности измерения самой точки и соответственно степень неопределенности (если это можно).

KolesovDmitry
Гуру
Сообщения: 810
Зарегистрирован: 22 авг 2007, 14:58
Репутация: 123
Откуда: Казань

Re: оценка точности измерения точечных данных

Сообщение KolesovDmitry » 16 дек 2009, 13:16

Давайте я еще раз попробую выразить свою мысль.

Я пытался сказать, что, как мне кажется, нельзя (неправильно?, сложно?, невозможно?) использовать четкие категории в задаче, где данные по своей сути нечетки. И что одно число (например, точность=10км) в описании местоположения объекта не устраняет проблему нечеткости данных.

Ведь именно потому, что
Анна писал(а):очень часто точки как таковой у нас нет. Например, известно, что вид А встретился в Советском районе Иркутской области.
использовать одну пару координат (или даже полигон) и некоторый диаметр d, описывающие возможное местоположение объекта, неверно (опять же: сложно?, нельзя?). Поскольку очевидно, что в общем случае никакого конкретного числа (точность=d) не существует (что будет, если мы сместимся на d+epsilon, за границу?), то получаем, что дискретный подход не годится, а придется использовать целый спектр непрерывно меняющихся значений (пусть это будет даже значения не вероятностей, а что-то другое).
Анна писал(а):Какая же тут вероятность в ячейках грида? 100% на территории района? и 0 - за пределами? а какого размера делать ячейку?
Что же касается этого вопроса (подозреваю, что он был риторическим, но, тем не менее, отвечу),то никакого ответа на него у меня нет, да и быть не может. Чтобы на него ответить, нужно хорошо представлять предметную область, в которой вы работаете и особенности данных. Могу лишь предложить несколько вариантов, как это могло бы быть сделано.
Понятно, что можно сделать грид, в котором вероятность 100% на территории района и 0 - за пределами, но это, скорее всего неверно (фактически, опять имеем дело с детерминированной моделью, чего хочется избежать).
Может быть лучше будет так: вероятность P=const внутри района, и (вне района) вероятность P(d), постепенно спадающая до нуля по мере роста расстояния d от границы района.
Или даже так: вероятность P=const внутри некоторого полигона на территории района и вероятность P(d), постепенно спадающая до P(g0)=const на границе района и далее, уходящая в ноль по мере роста расстояния d от границы района.
И т.п. Понятно, что для каждой предметной области (и для каждого вида объекта) нужно будет продумать, как лучше описать его возможное местонахождение (если интересуют подробности, могу описать, как делал я для своей задачи).
Анна писал(а): и потом, еще такой момент - когда мы переходим к вероятности встречи - это уже самая настоящая модель, которую простым гауссовым распределением не опишешь, и обычно эта задача следующего уровня (на основе точек присутствия вида и каких-то переменных среды построить модель вероятности встречи вида - для этого целый спектр всяких подходов существует).
Да, я хорошо понимаю, что реальную вероятность не описать нормальным распределением, что задача получается сложная и т.д., но, во-первых, я вовсе не настаиваю на использовании этого конкретного распределения :) (привел его для иллюстрации принципа), а во-воторых, исходный вопрос был о мыслях, как лучше решить задачу точности. Так вот: мне кажется, что
1) растровая модель будет более правильным подходом
2) сложность описания задачи возрастет не на много, по сравнению с поисками величины точности.

geologic
Гуру
Сообщения: 852
Зарегистрирован: 15 сен 2005, 13:19
Репутация: 6
Откуда: москва
Контактная информация:

-

Сообщение geologic » 16 дек 2009, 13:48

В принципе согласен с Дмитрием, да только это не вся природная соль. Мы тоже, занимаясь мониторингом, задавались этим философским вопросом. Какой "охват" точки наблюдения, что она собою характеризует, представляет? Хорошо если точки однотипные и изх немного, а если тысячи за разные года? Мне кажется интуитивно все исследователи понимают принципы, но при формализации сведений возникают проблемы. Например, охваты различных точек могут пересекаться между собой, а показания, соответственно, будут конфликтовать.

Мы (довольно коллегиально) в ту пору пришли к выводу, что для слабоизученных территорий и экспресс-проектов достаточно грид-подхода. По мере изучения его можно усложнять, детализируя грид, отходя от изометричности - ортогональности и т.п. Но по своей сути подход механистичен и довольно скоро начинает смущать любого естественника. Поэтому, ежели территория изучена достаточно, и есть схемы деления природной среды, лучше базировать мониторинг на ландшафтом делении, хотя бы самом общем. В пределах таксонов можно резать опять же гриды, если срочно, а можно детализировать деление естественным образом по мере развития системы наблюдений.

Выделение класса точек с радиусом охвата 5м, кстати, и есть создание грида - если учитывать пространственную целостность. Ведь точки не должны быть ближе 5м - иначе они являются дубликатами. Тоже и со временем - какой временной охват наблюдений? По сути, задача может звучать как "пространственно-временная целостность систем природного мониторинга". Где-то у меня тезисно статья заготовлена была на эту тему - с примерами на SQL ;)

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9129
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 748
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Максим Дубинин » 16 дек 2009, 14:38

Аня, тебе также следует учесть, что используя например регрессии для статанализа подобных данных (где-то маленькая ошибка, а где-то большая), ты нарушаешь предпосылку равенства вариации ошибок, перед анализом эту проблему необходимо решить, либо вводить в регрессию особый параметр структуры вариации групп.

В принципе, это не так страшно как возможно звучит, просто тебе нужно сделать mixed-effects models вместе и без этого параметра,а дальше сравнить ановой две эти модели, она тебе скажет, нужен ли этот параметр или нет, H0 параметр = 0.

Но если ты не занимаешь регрессионным анализом, то во все вышевысказанное мною можно не вникать.

В любом случае, перед собственно расчетами, я попытся сделать привести ошибки к единому разбросу, т.е. грубо говоря - огрубить GPS данные до самых неточных, генерализовать до сетки или районов. Не уверен, что тебе такой вариант подойдет, но если ты это попробуешь сделать и дальше цифры будут те, что нужно - это скажет, что твой анализ достаточно робастный и не страдает от понижения точности части данных.

Еще статистическая мысль, разный уровень точности и использование данных как есть может привести к проблемам с пространственной автокорреляцией, ты будешь "ловить" эффекты на разных масштабных уровнях показывающие разные процессы, например на уровне GPS точек - разницу в типах почв, на уровне районов - климатические изменения. Решение предложенное выше (генерализация) похоже на то, что используют чтобы бороться с автокорреляцией, когда берут прореженную сеть.

Немного сумбурно, но выражаясь кратко - попробуй генерализовать и посмотреть что получится.
пристегивайтесь, турбулентность прямо по курсу

Анна
Завсегдатай
Сообщения: 386
Зарегистрирован: 07 фев 2004, 14:31
Репутация: 7
Откуда: Лозанна
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Анна » 17 дек 2009, 00:56

спасибо за развернутые ответы.

Дмитрий, да было бы очень интересно почитать про Ваш пример:
Понятно, что для каждой предметной области (и для каждого вида объекта) нужно будет продумать, как лучше описать его возможное местонахождение (если интересуют подробности, могу описать, как делал я для своей задачи).
Geologic и Ваш подход тоже очень интересен, можно ли его-то почитать?
Где-то у меня тезисно статья заготовлена была на эту тему - с примерами на SQL
Sim, одна из причин, почему я задала этот вопроса крылась именно в этой самой необходимости соблюсти\учесть вариации ошибок. Поэтому осознаю. Но в связи с этим возникло ощущение, что я не очень удачно сформулировала свое первое послание, так как все ответы полезные, но немного не о том, что мне хотелось узнать.

Попробую еще раз сформулировать задачу уточнив, что
1) Необходимости свести все точки к единому уровню точности нет
2) Также мне не нужно иметь единое покрытие этих точек

Что мне хотелось бы иметь на выходе, так это какую объективную оценку точности точек, с помощью которой я могла бы выбирать точки для анализа на разных масштабах. К примеру, представим себе Китай, территория которого поделена на провинции (~наши области) а далее на каунтис (~наши районы). Эти самые каунтис имеют разный размер - от километров на востоке и центре Китая, до сотен километров в горной части на западе. Так вот, логично предположить, что если я собираюсь делать моделирование с переменными (климатическими к примеру) разрешением 10 километров, ошибка точек встреч вида которую я могу себе "позволить" не должна привышать этим самые 10 километров. Допустим с каунтис я думала логично будет получить длину максимального продольного сечения каунти и считать его той самой макс. ошибкой. А допустим с данными карт масшта 1:100000 или 1:1000000 как мне расчитать ошибку?

geologic
Гуру
Сообщения: 852
Зарегистрирован: 15 сен 2005, 13:19
Репутация: 6
Откуда: москва
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение geologic » 17 дек 2009, 15:16

Климатические данные лучше ассоциировать с климатическими (ландшафтными, орорафическими) единицами. Применять адм. деление для оценки точности природных данных - волюнтаризм. Лучше уж тогда приблизительный охват округлой формы, исходя из метода сбора данных. По крайней мере, индифферентно.

Если данные и правда климатические, вопрос еще можно задать метеорологам-климатологам здесь вот, для контроля наших "наземных" рассуждений.

В статье самое интересное - SQL, могу выслать файлик, он вполне читабелен, хотя идет с другого конца - с построения логичной методики. Тем же самым, кстати, страдают любые мониторщики, начиная от медиков и кончая технарями - вес замера, достоверность, сбываемость, проверяемость, сравнимость. Вопрос непростой, еще и версии ведь - 5-ое измерение ;) Короче, велкам в информатику

KolesovDmitry
Гуру
Сообщения: 810
Зарегистрирован: 22 авг 2007, 14:58
Репутация: 123
Откуда: Казань

Re: оценка точности измерения точечных данных

Сообщение KolesovDmitry » 17 дек 2009, 16:53

Анна писал(а): Дмитрий, да было бы очень интересно почитать про Ваш пример
Чтобы не заспамить кучей текста эту ветку - описание вкладываю в файл.
Вложения
tekst.pdf
(45.82 КБ) 884 скачивания

AndreyL
Завсегдатай
Сообщения: 483
Зарегистрирован: 17 авг 2006, 14:04
Репутация: 0
Откуда: Новосибирск

Re: оценка точности измерения точечных данных

Сообщение AndreyL » 20 дек 2009, 23:50

geologic писал(а):В статье самое интересное - SQL, могу выслать файлик, он вполне читабелен, хотя идет с другого конца - с построения логичной методики.
А Вы можете файлик прямо в форуме выложить? Метод Дмитрия я с удовольствием прочел. У нас в картировании бывают схожие задачки, типа соответствия геологической карты карте пробоотбора, но мы решаем через буферы точности - естественно не без SQL, посему весьма интересен Ваш подход.

Анна
Завсегдатай
Сообщения: 386
Зарегистрирован: 07 фев 2004, 14:31
Репутация: 7
Откуда: Лозанна
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Анна » 21 дек 2009, 01:22

Спасибо. Дмитрий, за текст - действительно очень интересный метод. To geoelogic - присоединяюсь к AndreyL - может выложить sql файл прямо в форуме?

И все же возвращаясь к моему первоначальному вопросу:), как описывать точность точки? не моделировать на основе точки некие процессы и не искать саму точку(!), а прописывать ее точность исходя из того, на основе какого источника она была получена.
Очень хочется услышать ответ именно по этому вопросу, а не по другим темам:). Некоторые подходы к тому, что меня интересует изложены в прикрепленном документе.
Вложения
05_exercise_max_uncertaincy.doc
Расчет точности точечных данных GBIF
(361 КБ) 800 скачиваний

Аватара пользователя
Максим Дубинин
MindingMyOwnBusiness
Сообщения: 9129
Зарегистрирован: 06 окт 2003, 20:20
Репутация: 748
Ваше звание: NextGIS
Откуда: Москва
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение Максим Дубинин » 21 дек 2009, 01:49

я бы каждой точке дал 2 атрибута, источник, он же выражение типа привязки, радиус ошибки (для ячеек сетки и районов - радиус вписанной окружности например)
пристегивайтесь, турбулентность прямо по курсу

geologic
Гуру
Сообщения: 852
Зарегистрирован: 15 сен 2005, 13:19
Репутация: 6
Откуда: москва
Контактная информация:

Re: оценка точности измерения точечных данных

Сообщение geologic » 21 дек 2009, 12:03

Анна, вы поймите. Ну пропишете вы радиус точности точки, и ширину обзорности маршрута, или еще как-то геометрически, это тривиально: все с этого начинают. Дальше в вашей базе эти окружности с разными данными будут пересекаться для смежных точек... В том числе и в одно и то же время для одних и тех же параметров. Какое значение принимать, первое или второе? начнете ставить точкам разный вес, сливать-аггрегировать... На мой взгляд, лучше не идти накатом с нуля, как обычно делают начинающие мониторщики, а сразу запланировать ситуацию до конца ваших исследований (жизни базы данных), исходя из набора исследований, формы наблюдений, временных и пространственных особенностей. Это непросто когда не имеешь на руках всех данных, но на што тогда абстрактность мышления и интуиция.

Это не какой-то отдельно выдуманный подход, просто стратегия и опыт таких дел. Я выложу статью - вроде нашел в последней редакции - но в обмен хотелось бы от коллег рассуждений на эту, более широкую "мониторинговую" тему, если Анна позволит отойти от чисто "точности". Если нет, лучше другую тему давайте заведем.

Ответить

Вернуться в «Общие вопросы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 3 гостя