Методика, нужны советы и критика

Loup · Сообщение **Loup** » 01 дек 2014, 17:20

Всем привет!

1) Есть методика, которая использовалась для картирования болот достаточно большого региона. Поскольку я по образованию далека от картографии, мне бы пригодился совет, как правильнее это все описать (что добавить, где убавить), чтобы получился адекватный с точки зрения картографов материал.

Кроме того, хотелось бы услышать замечания насчет "правильности" подхода. Скажем, меня смущает то, что пришлось использовать "посценное" дешифрирование, хотя в недавних классных работах Giri et al. (2011) и Gong et al. (2013) тоже обошлись без мозаик. В моем случае просто не было ни знаний, ни ресурсов делать единую хорошую мозаику. Из-за удаленности региона было мало наземных данных и пришлось часто достаточно субъективно задавать эталонные участки на основании всяких косвенных материалов типа снимков сверхвысокого разрешения, других карт, собственного опыта и т.д. Можно ли вообще в картировании уйти от субъективности? Возможно, есть еще какие-то минусы, которые вам сразу бросятся в глаза. Какие-то вещи просто непонятно написаны и я никак не могу хорошо их переделать.

В общем, буду рада перечислению слабых мест методики и описания.

Могу добавить, что работа уже была на рецензировании у хороших иностранных ученых и я сделала все, что они просили исправить.

2) Второй вопрос. У меня есть оценка точности карты равная 80%, которая (предположим!) была объективна определена на основании достаточного количества точек. Насколько существенны недостатки методики, вызванные недостатком знаний/опыта, если конечный продукт неплох. Ваше мнение?

В качестве исходных данных для картирования болот были выбраны спутниковые снимки Landsat с разрешением 30 метров, свободно распространяемые через сервисы Геологической Службы США (http://glovis.usgs.gov/). Для создания карты выбирались снимки за пик вегетационного сезона, подобранные с точки зрения максимального соответствия друг другу. Так как задачей исследования является инвентаризация современного состояния болот, то большая часть материалов датируется периодом 2005-2010 годов; лишь при отсутствии сцен за данный период допускалось картирование более ранних снимков. Наибольшее количество выбранных снимков датируется 2007 годом.
На сегодняшний день существует два основных подхода к картированию. Первый предполагает “склейку” отдельных сцен в единую мозаику, что оптимизирует процесс классификации и совмещения границ снимков. К недостаткам метода можно отнести его высокую трудоёмкость и спектральную неоднородность итоговой мозаики, особенно проблематичную при ограниченной доступности качественных снимков (Homer et al., 2001). Второй подход предполагает дешифрирование каждой сцены по отдельности. По сути, ни один из алгоритмов не может быть считаться оптимальным без рассмотрения целей исследования и имеющихся ресурсов (Adam et al., 2010). В нашем случае был выбран второй подход, оказавшийся более эффективным.
Процесс создания карты включал предварительную обработку снимка, задание эталонных участков, дешифрирование, перегруппировку спектральных классов в 11 типов болот и оценку точности карты. Атмосферная коррекция снимков не проводилась, поскольку она не является необходимой до тех пор, пока эталонные участки берутся с самого дешифрируемого снимка (Song et al., 2001). При расчетах площадей использовалась проекция Альберса (Alber, 1996).
При использовании любых методов классификации возникают проблемы, связанные с отделением различных болотных типов друг от друга и от окружающих ландшафтов вследствие перекрытия спектральных сигнатур (Gluck et al., 1996). Чтобы их минимизировать, для каждой сцены создавалась маска болот в Quantum GIS v.2.01. Мы использовали Green Red Vegetation Index (GRVI) для отделения болот от лесов и 5-й канал Landsat для отделения водных объектов. В наиболее сложных случаях применялись другие алгоритмы маскирования, включающие использование теплового канала Landsat, снимков за различные временные периоды, а также эмпирически подобранных вегетационных индексов. Дешифрирование проводилось посценно с помощью Multispec v.3.3 (Purdue Research Foundation) методом классификации с обучением (алгоритм “maximum likelihood classification”) на основании данных всех каналов за исключением теплового. Обработанные снимки фильтровалась от шумов в MATLAB v. 7.13 (Mathworks), при этом удалялись растровые полигоны размером меньше порогового, а значения этих пикселей заменялись значением из наибольшего примыкающего растрового полигона.
Выбор эталонных участков играет первостепенную роль в методе классификации с обучением. В течение последних лет нами было обследовано 28 ключевых участков таежной зоне, однако полученных данных не достаточно для достоверного картирования болот. Снимки сверхвысокого разрешения также не могут использоваться в качестве основного источника информации из-за недостаточного покрытия и трудностей при отделении одних типов болот от других. Как результат, мы были вынуждены задавать эталонные участки на основании спектральных данных, используя имеющиеся материалы лишь в качестве дополнительного источника информации. В процессе выбора эталонных участков, для них были использованы следующие критерии (Gong et al., 2013):
1. максимальная гомогенность, спектральные неоднородности не допускаются;
2. площадь не меньше 6 пикселей при среднем значении в 100 пикселей;
3. тип ландшафтов должен определяться лишь на основании спектральных данных; снимки сверхвысокого разрешения и вспомогательные данные используются в качестве справочной информации.
Объединение снимков и расчеты площадей проводились в модуле GRASS Quantum GIS (функции r.patch и r.stats, соответственно). Оценка точности итоговой карты проводилась путем визуальной интерпретации болотных ландшафтов по снимкам высокого разрешения на основании 439 случайно выбранных точек. Приведенный выше алгоритм дешифрирования спутниковых снимков оказался близок к использованному в недавних исследованиях Giri et al. (2011) и Gong et al. (2013).

ps. Заранее огромная благодарность тому герою, что возьмется мне помочь советом и критикой!

Сообщение **nadiopt** » 01 дек 2014, 17:38

по-моему все нормально. посценное дешифрирование абсолютно уместно, потому что при создании мозаик происходит уравнивание цвета и, стало быть, искажение спектральных характеристик
есть несколько редакторских правок, например "В течение последних лет нами было обследовано 28 ключевых участков таежной зоне" - то ли предлог пропущен, то ли падеж неверный
поподробнее смогу разобрать ночью

Loup · Сообщение **Loup** » 01 дек 2014, 17:41

Ну, редакторские абсолютно не принципиальны, я скорее про суть. Спасибо за комментарий!

Сообщение **nadiopt** » 01 дек 2014, 17:53

мне кажется, не хватает формулы для расчета индекса и ссылки на соответствующий источник
фраза "картирование более ранних снимков" некорректная, снимки не картируют, а дешифрируют

Сообщение **bolotoved** » 01 дек 2014, 20:04

Приведенный текст слишком общий, а дьявол, как водится... водится в мелочах

> Можно ли вообще в картировании уйти от субъективности?

В случае, когда территория мало изучена применяют алгоритмы классификации без обучения (и гибридные), затем анализируют результаты, в т.ч. в поле.

> У меня есть оценка точности карты равная 80%, которая (предположим!)

Оценка точности классификации целая отдельная наука, нужно обязательно указать какая методика оценки точности использовалась со ссылкой.

> подход предполагает дешифрирование каждой сцены по отдельности

Посценная классификация в вашем случае, полагаю, вполне приемлема. Единственное, желательно было располагать эталоны на местах нахлеста снимков (чтобы была возможность использовать для смежных снимков одни и теже эталоны). М.б. вы так и делали, но про это не сказано.

> было обследовано 28 ключевых участков

Нужно во-первых акцентировать внимание, что часть эталонов были описаны в поле, оценить вклад именно этих полевых данных. Т.к. без них работа будет совсем уж виртуальной.

Я бы еще поподробнее остановился на ваших частных сложностях при классификации, какие возникали проблемы, неужели все проходило гладко?. Оценил бы точность классификации для отдельных классов: какие классы дешифрируются более, какие менее точно. В частности, я бы упомянул, сколько пришлось использовать эталонов на один класс в пределах одного снимка, чтобы добиться приемлемой точности.

Сообщение **nadiopt** » 01 дек 2014, 21:06

мне еще интересно знать, какие именно получились классы, ну и матрицу перепутывания хорошо бы увидеть.

Loup · Сообщение **Loup** » 01 дек 2014, 23:28

Вот я этого дьявола в мелочах и выискиваю активно.

>> Оценка точности классификации целая отдельная наука, нужно обязательно указать какая методика оценки точности использовалась со ссылкой.

"Оценка точности итоговой карты проводилась путем визуальной интерпретации болотных ландшафтов по снимкам сверх(?)высокого разрешения (SAS.Planet) на основании 439 случайно выбранных точек".

Матрицу ошибок см. в приложении. Так как точки задавались случайно, их кол-во зависит от распространенности каждого класса в изучаемом регионе. Интуитивно кажется, что это правильно, хотя для бугристых болот явно надо больше. Ссылку ставлю на Congalton, 1991 - судя по ее цитируемости, это одна из самых основополагающих работ по данной теме.

"...Помимо этого, для каждого снимка индивидуально рассчитывалась программная ошибка классификации (?) (Kappa); когда Kappa оказывалась ниже 90%, тестовые участки перезадавались до достижения удовлетворительного результата". Важно ли это упомянуть?

: Оценка точности.jpg (107.61 КБ) 13496 просмотров

>> Посценная классификация в вашем случае, полагаю, вполне приемлема. Единственное, желательно было располагать эталоны на местах нахлеста снимков (чтобы была возможность использовать для смежных снимков одни и теже эталоны). М.б. вы так и делали, но про это не сказано.

Я старалась так делать, в том числе, чтобы упростить edge-matching (не знаю, как по-русски). Добавлю в описание.

>> Нужно во-первых акцентировать внимание, что часть эталонов были описаны в поле, оценить вклад именно этих полевых данных. Т.к. без них работа будет совсем уж виртуальной.

У меня в работе фигурирует такой дискуссионный текст:

Основная проблема заключается в факторе объективности, поскольку задание эталонных участков целиком основано на знаниях аналитика. Очевидно, что многочисленные экспериментальные данные также использовались для идентификации растительности, однако большая часть территории региона до сих пор остается слабо исследованной. Спутниковые снимки высокого разрешения также доступны лишь для малой части территории.

С другой стороны, хотя разнообразие болотных ландшафтов в ЗС и велико, но все-таки представляет собой конечную величину. К счастью, за 8 лет полевых исследований автору удалось посетить, а также провести измерения практически на всех широко представленных болотных ландшафтах ЗС. Особое внимание было уделено двум стационарным точкам в южной и средней тайге, болотные комплексы которых репрезентативны и охватывают большую часть ландшафтной вариабельности в двух подзонах. Поскольку в качестве первых снимков для дешифрирования были выбраны сцены Landsat, покрывающие ключевые участки, автор имел возможность отработать методику выбора эталонных участков на хорошо известных объектах. Остальные снимки обрабатывались по аналогии с тестовыми сценами. По своей сути, процесс картирования опирался на данные полевых исследований, экстраполированные на соседние территории и дополненные собственными знаниями аналитика, а также доступными картографическими материалами, литературными данными и снимками сверхвысокого разрешения.

Не уверена, что смогла правильно расставить акценты. Плюс написано кривовато, но это корректируется.

>> Я бы еще поподробнее остановился на ваших частных сложностях при классификации, какие возникали проблемы, неужели все проходило гладко? Оценил бы точность классификации для отдельных классов: какие классы дешифрируются более, какие менее точно.

Этому посвящена небольшая глава, но в результатах и обсуждении, а не методах.

>> В частности, я бы упомянул, сколько пришлось использовать эталонов на один класс в пределах одного снимка, чтобы добиться приемлемой точности.

Идея была такова, что для каждой сцены лучше задать 30-50 "спектральных" классов с 1-3 максимально гомогенными и большими по размеру эталонами, чем задавать "нормальное" (10-15) кол-во классов со множеством эталонов для каждого. К примеру, у меня на сцене может быть выделено пять различных классов рямов ("рям-1", "рям-2" и т.д.), которые немного отличаются друг от друга, но по сути - одно и то же. У каждого такого класса будет по 1-3 эталона, но после дешифрирования я объединю их площади в один "информационный" класс "Рям".

Гонг пишет что-то похожее (если я правильно уловила суть):
About 10–20 samples are required to be selected from each scene, and no more than three samples for each category (unless a scene is homogeneous, such as in the Sahara or tropical rainforest areas).

>> мне кажется, не хватает формулы для расчета индекса и ссылки на соответствующий источник

Спасибо, добавлю!

ericsson · Сообщение **ericsson** » 02 дек 2014, 01:59

Ворованные из Google maps снимки, прошедшие непонятно какую коррекцию, используются, как эталонные данные. Вы уверены?

Сообщение **bolotoved** » 02 дек 2014, 03:07

ericsson писал(а):Ворованные из Google maps снимки, прошедшие непонятно какую коррекцию, используются, как эталонные данные. Вы уверены?

А где же призумпция невиновности?
В свое время товарищи даже спец. интерфейс для гугла соорудили, чтобы народ мог верифицировать их ландковёр: Fritz S. et al. Geo-Wiki. Org: The use of crowdsourcing to improve global land cover //Remote Sensing. – 2009. – Т. 1. – №. 3. – С. 345-354.

По снимкам гугла проводится только визуальная оценка точности: попала проверочная точка в нужный класс или нет. На высоком разрешении видны элементы микрорельефа, то ингда эта инф. достаточно, чтобы сориентироваться в адекватности классификации. Спектральные характеристики этих снимков не задействуются.

Сообщение **bolotoved** » 02 дек 2014, 03:08

> edge-matching (не знаю, как по-русски)
состыковка краев фрагментов классификации

> ставлю на Congalton, 1991
Только лишь сослаться недостаточно, это один из первых обзоров методов проверки точности и даже матрица ошибок рассматривается им в нескольких вариациях. А еще там приводятся коэффициенты типа каппы. Нужно указать, как именно вы рассчитывали точность, подозреваю, что использовалась простая матрица ошибок. Кстати, у вас на слайде в подписях есть ошибка пользователя и ошибка произвоителя, а в таблице второй ошибки - нет. Кроме того нет результирующей точности.

> Так как точки задавались случайно, их кол-во зависит от распространенности каждого класса
Чтобы избежать этого эффекта используется т.н. стратифийированный отбор проб (для каждого класса случайные точки генерируются отдельно) - в том же Congaltone это описано.

> программная ошибка классификации (?) (Kappa)
Скорее всего, программой расчитывалось совпадение результатов классификации с исходными эталонами с помощью каппы. Это вспомогательная инф., если каппа даже в этом случае очень низкая, необходимо перезадавать эталоны. А оценку точности надо проводить по независимым от исходных эталонов данным, т.ч. эту инф. можно не приводить.

Loup · Сообщение **Loup** » 02 дек 2014, 08:56

>> Кстати, у вас на слайде в подписях есть ошибка пользователя и ошибка произвоителя, а в таблице второй ошибки - нет. Кроме того нет результирующей точности.

Странно, я вижу и ту, и ту. Результирующая точность - 79%.

>> Нужно указать, как именно вы рассчитывали точность, подозреваю, что использовалась простая матрица ошибок.

Т.е. ссылка должна выглядеть так: "использовалась простая матрица ошибок (Congalton, 1991)"?

>> Чтобы избежать этого эффекта используется т.н. стратифийированный отбор проб (для каждого класса случайные точки генерируются отдельно) - в том же Congaltone это описано.

Да, мне изначально понятно, как это сделать. Не понятно было, нужно ли. Ну и в целом, минимально достаточна ли проделанная оценка точности?

>> Скорее всего, программой расчитывалось совпадение результатов классификации с исходными эталонами с помощью каппы.

Ясно, я так и думала.

>> Ворованные из Google maps снимки, прошедшие непонятно какую коррекцию, используются, как эталонные данные. Вы уверены?

Кстати вот это интересный момент. Ответ, конечно, нет - болотовед правильно разъяснил. А насчет ворованности можно ли подробнее (ссылки достаточно)? Я использовала три основных продукта из САС.Планет - гуглкарты, яндекскарты и бинг. Первые два вида ВРОДЕ бы в открытом доступе (покрытия не сравнивала). Насчет бинга - не в курсе.

Сообщение **nadiopt** » 02 дек 2014, 09:38

по условиям лицензионного соглашения продукты яндекс и гугль нельзя использовать, минуя их API, насколько я помню. грубо говоря, если мы подгружаем результат классификации в гугль, ставим там точки и проверяем, тот это класс или нет - мы ничего не нарушили. Если мы тащим сас-планетой гуглоснимки себе в ГИС - нарушили, а-та-та

Сообщение **bolotoved** » 02 дек 2014, 19:29

> Странно, я вижу и ту, и ту. Результирующая точность - 79%.
Сорри, действительно.

> Не понятно было, нужно ли.
Нужно, когда классы сильно разного объема, чтобы сократить объем работы по верификации. Потому что существует негласное правило (озвучено в какой-то из более поздних статей Конгальтона), что на класс должно приходиться не менее 50 точек, а лучше больше.

> Т.е. ссылка должна выглядеть так: "использовалась простая матрица ошибок (Congalton, 1991)"?
Как-то так

Loup · Сообщение **Loup** » 02 дек 2014, 19:55

>> Потому что существует негласное правило (озвучено в какой-то из более поздних статей Конгальтона), что на класс должно приходиться не менее 50 точек, а лучше больше.

Ага, т.е. каждый класс догнать до 50, т.е. минимум 50*10 = 500 точек при используемой типологии. Отлично, не так уж и много, постараюсь.

Сообщение **bolotoved** » 03 дек 2014, 08:24

Вот вам цитата про 50 точек из параграфа "How Many Samples Should Be Taken?" монографии Конгальтона и Грина (с. 75). Там рассматривается более правильный подход к рассчету нужного количества проверочных точек, но в случае, когда эти рассчеты показывают огомное их количество, которое на пракитке выполнить не реально по времени, они рекомендуют использовать правило 50 точек на класс, (т.е. стрифицированный отбор):

Код: Выделить всё

 Also, it may be useful to take fewer
samples in categories that show little variability, such as water or forest plantations,
and increase the sampling in the categories that are more variable, such as uneven-
aged forests or riparian areas. However, in most instances, some minimum number
of samples (e.g., 50 samples as per the guidelines or the result of the multinomial
equation calculation) should be taken in each land cover category contained in the
matrix. Perhaps most importantly, the entire accuracy assessment process should be
documented so that others can know exactly what procedures were followed.

Congalton, R.G., Green, K. (2008). Assessing the Accuracy of Remotely Sensed Data: Principles and Practices, Second Edition (CRC Press).

Форумы GIS-Lab.info

Методика, нужны советы и критика

Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Re: Методика, нужны советы и критика

Кто сейчас на конференции