Критерий Бхаттачария
-
- Интересующийся
- Сообщения: 15
- Зарегистрирован: 16 авг 2016, 07:17
- Репутация: 0
Критерий Бхаттачария
Доброго времени суток. Не знаю куда уже обратиться, но так как тема связана с обработкой изображений напишу сюда. Проводя кластеризацию, никогда не знаешь сколько классов нужно выбрать для "истинного" значения. В этом случае прибегают к различным оценкам, таким как правило Стерджеса, критерий Бхаттачария. Так вот по последнему и хочу спросить, нет ли у кого алгоритма, формул или рабочей программы по расчету данного критерия. В сети искал, признаюсь ничего не понял =(
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Критерий Бхаттачария
есть расстояние Бхаттачария (перекрытие классов), критерия не знаю - просто минимизировать перекрытие? Ссылки может есть (на оригиналы, нужны названия статей). Расстояние для нормального распределения считает пакет fpc в R. Там кстати и число классов есть
Что касается оптимального числа классов, то все зависит от использованной модели, если вы можете посчитать правдоподобие (как для гауссовой или гамма смесей), то просто используйте AIC или BIC.Methods for estimation of the number of clusters: Calinski-Harabasz, Tibshirani and Walther's prediction strength, Fang and Wang's bootstrap stability.
-
- Интересующийся
- Сообщения: 15
- Зарегистрирован: 16 авг 2016, 07:17
- Репутация: 0
Re: Критерий Бхаттачария
Обо всем по порядку.
1. Источник мне дали следующий Bhattacharyya, A. (1943). "On a measure of divergence between two statistical populations defined by their probability distributions". Bulletin of the Calcutta Mathematical Society. 35: 99–109. Но я перерыл все что смог, не нашел =(
2. Только что нашел "коэффициент бхаттачария" ссылка https://en.wikipedia.org/wiki/Bhattacharyya_distance насколько я понимаю p и q это вероятность и 1-вероятность. Но дальше если это так я вообще ничего не понимаю. -_- Туго у меня с этим.
3. Не совсем понял про модель и правдоподобие. По порядку - у меня имеется изображение я его кластеризую методом K-means. На различное количество классов, каким образом мне вычислить количество оптимальное?
1. Источник мне дали следующий Bhattacharyya, A. (1943). "On a measure of divergence between two statistical populations defined by their probability distributions". Bulletin of the Calcutta Mathematical Society. 35: 99–109. Но я перерыл все что смог, не нашел =(
2. Только что нашел "коэффициент бхаттачария" ссылка https://en.wikipedia.org/wiki/Bhattacharyya_distance насколько я понимаю p и q это вероятность и 1-вероятность. Но дальше если это так я вообще ничего не понимаю. -_- Туго у меня с этим.
3. Не совсем понял про модель и правдоподобие. По порядку - у меня имеется изображение я его кластеризую методом K-means. На различное количество классов, каким образом мне вычислить количество оптимальное?
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Критерий Бхаттачария
это расстояние, пакет R для вычисления приведен вышеPilolin писал(а):Обо всем по порядку.
1. Источник мне дали следующий Bhattacharyya, A. (1943). "On a measure of divergence between two statistical populations defined by their probability distributions". Bulletin of the Calcutta Mathematical Society. 35: 99–109. Но я перерыл все что смог, не нашел =(
это не ко мне. Пакет для вычисления приведен выше.2. Только что нашел "коэффициент бхаттачария" ссылка https://en.wikipedia.org/wiki/Bhattacharyya_distance насколько я понимаю p и q это вероятность и 1-вероятность. Но дальше если это так я вообще ничего не понимаю. -_- Туго у меня с этим.
в такой постановке - никаким. Оптимальность всегда считается относительно некоторого критерия (что мы хотим получить в идеале), например минимальную ошибку квантизации или максимальное правдоподобие.3. Не совсем понял про модель и правдоподобие. По порядку - у меня имеется изображение я его кластеризую методом K-means. На различное количество классов, каким образом мне вычислить количество оптимальное?
P.S. K-means для изображения это не есть хорошо, используйте хотя бы стандартную Isodata, Fuzzy c-means или Гауссовскую смесь. Есть всякие пакеты поверх того же QGIS и GRASS, в которых можно нажимать кнопки в соответствии с инструкцией, вам скорее туда - они сами все сделают.
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Критерий Бхаттачария
Svidzinska D. Mapping of landscape spatial dynamics patterns by the fuzzy clustering analysis
Пространственная агроэкология и рекультивация земель: монография / [ДЕМИДОВ А.А., КОБЕЦ А.С., ГРИЦАН Ю.И., ЖУКОВА.В.]. – Днепропетровск : Изд-во «Свидлер А.Л.», 2013. – 560 с.
Agriculture Field Characterization using GIS software and Scanned Color Infrared Aerial Photographs
Spatial analysis of Ardabil plain aquifer potable groundwater using fuzzy logic
FuzME
Отображение техноземов в географическом и экологическом пространствах
Гис-подход к оценке изменчивости электропроводнсти почвы под влиянием педотурбационной активности слепыша
Оптимальное число классов определяется по соотношению дробности/неопределенности классификации FPI MPE.
Программа FuzMe как раз и использует Fuzzy k-means, универсальный алгоритм неуправляемой нечеткой классификации с оценкой ее общей неопределенности, обоснованием оптимального числа классов и эффектной визуализацией процесса классификации.
Пространственная агроэкология и рекультивация земель: монография / [ДЕМИДОВ А.А., КОБЕЦ А.С., ГРИЦАН Ю.И., ЖУКОВА.В.]. – Днепропетровск : Изд-во «Свидлер А.Л.», 2013. – 560 с.
Agriculture Field Characterization using GIS software and Scanned Color Infrared Aerial Photographs
Spatial analysis of Ardabil plain aquifer potable groundwater using fuzzy logic
FuzME
Отображение техноземов в географическом и экологическом пространствах
Гис-подход к оценке изменчивости электропроводнсти почвы под влиянием педотурбационной активности слепыша
Оптимальное число классов определяется по соотношению дробности/неопределенности классификации FPI MPE.
Можно статьи, материалы на основе которых сделан такой вывод?K-means для изображения это не есть хорошо
Программа FuzMe как раз и использует Fuzzy k-means, универсальный алгоритм неуправляемой нечеткой классификации с оценкой ее общей неопределенности, обоснованием оптимального числа классов и эффектной визуализацией процесса классификации.
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Критерий Бхаттачария
понимаете в чем дело, вы знаете много фамилий, а я знаю много формул - несмотря на похожие названия K-means и Fuzzy c-means это разные вещи. Fuzzy c-means - это приближенный вариант EM алгоритма для гауссовой смеси, который нормально работает только если компоненты имеют одинаковую дисперсию (и желательно независимы). Из ссылок могу процитировать вики про Fuzzy c-means:bim2010 писал(а):Можно статьи, материалы на основе которых сделан такой вывод?
Программа FuzMe как раз и использует Fuzzy k-means, универсальный алгоритм неуправляемой нечеткой классификации.
Выводы все тривиальные, следуют из формул, и не требует специальных ссылок. И чтобы не рассказывать про формулы, я и рекомендовал ТС обратиться к специалистам по кнопкам. Но за свои слова я отвечаю, и могу их обосновать без всяких ссылок на какие-то фамилии, поскольку это математика, а не общественные науки.Using a mixture of Gaussians along with the expectation-maximization algorithm is a more statistically formalized method which includes some of these ideas: partial membership in classes.
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Критерий Бхаттачария
Как говорил ВВП: «Что может сказать о музыке Чайковского человек без прописки?”
Мы овладеваем более высоким стилем спора. Спор без фактов. Спор на темпераменте. Спор, переходящий от голословного утверждения на личность партнера. Выводя геоинформационные технологии на уровень мировых стандартов, которых никто не видел, мы до предела разовьем все семь чувств + интуицию, которая с успехом заменяет информацию.
Мы овладеваем более высоким стилем спора. Спор без фактов. Спор на темпераменте. Спор, переходящий от голословного утверждения на личность партнера. Выводя геоинформационные технологии на уровень мировых стандартов, которых никто не видел, мы до предела разовьем все семь чувств + интуицию, которая с успехом заменяет информацию.
-
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Критерий Бхаттачария
Этих оценок действительно огромное количество, я бы вместо того, чтобы брать статью 70-ти летней давности, которую вам и найти-то не удалось, почитать более современный обзор. Напримрер: Halkidi M., Batistakis Y., Vazirgiannis M. On clustering validation techniques // Journal of intelligent information systems. 2001. Т. 17. № 2–3. С. 107–145.Pilolin писал(а):Проводя кластеризацию, никогда не знаешь сколько классов нужно выбрать для "истинного" значения. В этом случае прибегают к различным оценкам...
Эта статья имеет столько же ссылок, сколько и статья Bhattacharyya, A. (1943), хотя написана спустя 60 лет и рассматривает большое число разных метрик. К тому же, эта статьялежит на видном месте.
Из реализованных программ стоит посмотреть в сторону алгоритмов кластеризации SciKit-learn (библиотека Python) и методов оценки кластеров. Там оч. хорошая документация и ссылки на необходимую лит-ру.
Для примера, в документации приводится оценка адекватности количества кластеров методом Silhouette distance как раз на примере результатов полученных с помощью кластеризации методом K-Means.
Однако, как уже заметил Gamm, метод K-Means для кластеризации изображений подходит крайне редко, чтобы результат был удовлетворительным, нужно, чтобы кластеры хорошо друг от друга отделялись, в природе же такое бывает редко, а кластеры и чаще всего представляют рассеянные взаимопроникающие облака. По этому, чтобы их лучше разделить, нужно использовать методы кластеризации учитывающие параметры этого рассеяния. Например, Gaussian Mixture Models, они тоже реализованы в SciKit.
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Критерий Бхаттачария
Неуправляемая классификация в FuzMe.
Управляемая классификация
Козлов Д.Н. Цифровой ландшафтный анализ при крупномасштабном картографировании структуры почвенного покрова.
Forest Cover Change Analysis - Landsat + SAGA GIS
Land cover change analysis - Band difference technique
unsupervised classification in QGIS: kmeans or part two.
Управляемая классификация
Козлов Д.Н. Цифровой ландшафтный анализ при крупномасштабном картографировании структуры почвенного покрова.
Примеры использования K-Means для классификации снимков Landsat:FuzME is a PC Windows program for calculation of Fuzzy k-means with/without extragrades.
Forest Cover Change Analysis - Landsat + SAGA GIS
Land cover change analysis - Band difference technique
unsupervised classification in QGIS: kmeans or part two.
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Критерий Бхаттачария
По поводу классификации. По умолчанию все почему-то предполагают, что нужно получить классы, отделенные друг от друга чем дальше, тем лучше, а перекрытие классов - это плохо. Однако для природных систем, в отличие от искусственных, такое практически никогда не получится, в природе мы имеем континуум (той же растительности), и постоянные градиенты, смеси (в статистическом смысле), и т.д. Поэтому задачей классификации может быть использование большого числа классов для полного описания распределения (вместо его загрубления ядрами классов), выявление топологии этого распределения, ее визуализация, и районирования территории с выявлением (и отображением) градиентов.
Вместо этого мы постоянно видим попытки выделить дискретные классы, провести границы там, где их на самом деле нет, и последующие ожесточенные споры ученых (со ссылками на разные фамилии - поскольку объективных аргументов нет) по поводу того, кто и где неправильно провел границу.
Поэтому сама задача выбора "правильного" числа классов часто является не то что не решаемой, а просто неадекватной имеющейся природной системе.
Вместо этого мы постоянно видим попытки выделить дискретные классы, провести границы там, где их на самом деле нет, и последующие ожесточенные споры ученых (со ссылками на разные фамилии - поскольку объективных аргументов нет) по поводу того, кто и где неправильно провел границу.
Поэтому сама задача выбора "правильного" числа классов часто является не то что не решаемой, а просто неадекватной имеющейся природной системе.
требует ли утверждение, что 2*2=4 ссылки на публикации? Мне кажется, что нет. Если вместо просьб привести фамилии попросите обосновать то, что я сказал, то я это сделаю. А обсуждать писания людей, которые рассматривают математические методы как "черный ящик", и их "изучают", пытаясь, нажимая кнопки, понять, чего они делают - старый я для современного постиндустриального карго-культа ...bim2010 писал(а):Мы овладеваем более высоким стилем спора. Спор без фактов.
-
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Критерий Бхаттачария
Думаю, что спор между континуалистами и организмистами (дискретчиками) еще не улегся, хотя многие познали дао единства противоположностей и вроде бы успокоилисьgamm писал(а):...в природе мы имеем континуум.

На практике континуумами оперировать очень сложно. Часто сложно оперировать и большим количеством классов. Приведу пример, зачем, например я использую редукцию континуумов с помощью кластеризации. Естественно, я не утверждаю, что мой подход абсолютно верный, возможно, он вообще неправильный, но он явно лучше, чем некоторые другие.
Допустим, есть некоторая достаточно обширная и малоизвестная вам территория. Нужно в ограниченные сроки собрать как можно большую информацию о разнообразии растительности этого региона. Т.е. вам нужно проложить маршруты, чтобы они с одной стороны были посильными, с другой -- покрывали максимально большое количество растительных сообществ. Чаще всего эта задача решается с помощью визуального анализа карты или снимка + интуиция. Этот подход можно было бы дополнить разбиением территории на предварительные типы. В этом случае можно было бы применить и подход со случайным стратифицированным распределением площадок, когда в каждом типе случайным образом закладывается определенное количество точек сбора информации. В континууме это сделать сильно сложнее.
Еще в пользу поиска ядер кластеров. В той же геоботанике есть подход Браун-Бланке (дискретная классификация сообществ растений) когда собирается большой массив описаний, а затем из них выбираются ядра - "наиболее типичные" сообщества включающие определенный спектр видов индикаторов. Или эти "типичные" сообщества формируются искусственно, путем объединения нескольких реальных описаний. Остальные описания рассматриваются как переходные между ядрами. Этот подход часто оправдывает себя на практике. Например, зная ядро мы можем дать ему имя узнаваемое в научном сообществе, для ядра характерен определенный список верных ему видов растений, для ядра характерны определенные экологические условия и т.п.
Одуванчик лекарственный - пример дискретной (линнеевской) сущности, одуванчик можно дробить на бесконечное количество микровидов, определять которые в состоянии только десяток человек на планете. Но пример абсолютного континууалистического взгляда -- это признание уникальной каждой отдельной особи с ее индивидуальным генотипом (одуваны самоопыляются) и, вероятно, вообще, отказ от понятия вида. На практике же нам нужно просто сварить варенье из одуванчика.
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Критерий Бхаттачария
традиционными методами - вообще невозможно, ординация не сильно помогает, поскольку больше одной оси построить трудно, начинаются причуды типа DCA.bolotoved писал(а):На практике континуумами оперировать очень сложно.
Использование адекватных методов помогает, все ядра и градиенты укладываются на плоскость или в 3D, и стройте себе районирование территории, объединяя классы вокруг ядра.
Что же касается "зная ядро мы можем дать ему имя узнаваемое в научном сообществе", то откройте любой ботанический журнал, где публикуются синтаксономисты растительности, и насладитесь битвами - они там постоянно друг друга обличают, что не туда описание отнесли, и трясут научными школами. Вообще, наличие враждующих школ обычно свидетельствует об отсутствии объективных критериев. Во, попался под руку пример, с Миркиным вздумали бороться, слабые никчемные люди, продромусами машут тыц.
Даже с Браун-Бланке все непросто, там тоже континуум наблюдается (самих классификаторов), широтный - на севере доминирует доминантная классификация, южнее - Браун-Бланке, а в тропиках проективное покрытие уже никто посчитать не может.
-
- Гуру
- Сообщения: 920
- Зарегистрирован: 30 дек 2008, 14:11
- Репутация: 236
- Откуда: Ханты-Мансийск
- Контактная информация:
Re: Критерий Бхаттачария
"Укладывание градиента на плоскость" у меня ассоциируется с картами Кохонена. Можете уточнить и пару ключевых слов дать.gamm писал(а):Использование адекватных методов помогает, все ядра и градиенты укладываются на плоскость
Г. Таран ЖЖ которого вы процитировали большой спец, хотя и со специфичным характером. Б. Миркин вам, конечно ближе, потому что он использует язык математики. Таран - принадлежит другой культуре, для него ошибка в определении мха -- это фактически свидетельство профнепригодности геоботаника.
-
- Гуру
- Сообщения: 977
- Зарегистрирован: 27 янв 2009, 22:57
- Репутация: 258
Re: Критерий Бхаттачария
Кроме флористической классификации по методу Браун-Бланке, стоит упомянуть подход А.К. Каяндера, эколого-фитоценотическую классификацию ЦЭПЛ РАН, классификацию местообитаний EUNIS.
Vegetation syntaxa crosswalks to EUNIS habitat classification
БАЗА ДАННЫХ МЕСТООБИТАНИЙ (БИОТОПОВ) КАРЕЛИИ
Classification of natural and semi‐natural vegetation
A comparative framework for broad-scale plot-based vegetation classification
The classification conundrum: Species fidelity as leading criterion in search of a rigorous method to classify a complex forest data set.
Ковалев Д.Н., Носкова М.Г., Попов И.Ю. и др. Биотопический подход к формированию систем ООПТ на примере Ленинградской области.
Vegetation syntaxa crosswalks to EUNIS habitat classification
БАЗА ДАННЫХ МЕСТООБИТАНИЙ (БИОТОПОВ) КАРЕЛИИ
Classification of natural and semi‐natural vegetation
A comparative framework for broad-scale plot-based vegetation classification
The classification conundrum: Species fidelity as leading criterion in search of a rigorous method to classify a complex forest data set.
Ковалев Д.Н., Носкова М.Г., Попов И.Ю. и др. Биотопический подход к формированию систем ООПТ на примере Ленинградской области.
-
- Гуру
- Сообщения: 4168
- Зарегистрирован: 15 окт 2010, 08:33
- Репутация: 1107
- Ваше звание: программист
- Откуда: Казань
Re: Критерий Бхаттачария
ага, есть еще GTM имBishop (Generative Topographic Mapping), и обобщения SOM сделанные в Бонне (типа Growing grid, хотя у них интереснее построение топологии с выделением связных кластеров произвольной формы, которая Growing Neural Gas with Utility, посмотрите у них демку тыц).bolotoved писал(а):"Укладывание градиента на плоскость" у меня ассоциируется с картами Кохонена. Можете уточнить и пару ключевых слов дать.
Я регулярно что-нибудь укладываю. Для растительности нужна предварительная обработка матрицы site/spec, и переход к вероятностной модели, типа сглаживания Бейтса.
Б.Миркин тоже с характером, я вам доложу. Но речь об отсутствии более-менее объективной истины.Г. Таран ЖЖ которого вы процитировали большой спец, хотя и со специфичным характером.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 4 гостя