Критерий Бхаттачария

Не знаете, где задать вопрос? Задавайте здесь.
Pilolin
Интересующийся
Сообщения: 15
Зарегистрирован: 16 авг 2016, 07:17
Репутация: 0

Критерий Бхаттачария

Сообщение Pilolin » 29 ноя 2016, 09:48

Доброго времени суток. Не знаю куда уже обратиться, но так как тема связана с обработкой изображений напишу сюда. Проводя кластеризацию, никогда не знаешь сколько классов нужно выбрать для "истинного" значения. В этом случае прибегают к различным оценкам, таким как правило Стерджеса, критерий Бхаттачария. Так вот по последнему и хочу спросить, нет ли у кого алгоритма, формул или рабочей программы по расчету данного критерия. В сети искал, признаюсь ничего не понял =(

gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Критерий Бхаттачария

Сообщение gamm » 29 ноя 2016, 13:00

есть расстояние Бхаттачария (перекрытие классов), критерия не знаю - просто минимизировать перекрытие? Ссылки может есть (на оригиналы, нужны названия статей). Расстояние для нормального распределения считает пакет fpc в R. Там кстати и число классов есть
Methods for estimation of the number of clusters: Calinski-Harabasz, Tibshirani and Walther's prediction strength, Fang and Wang's bootstrap stability.
Что касается оптимального числа классов, то все зависит от использованной модели, если вы можете посчитать правдоподобие (как для гауссовой или гамма смесей), то просто используйте AIC или BIC.

Pilolin
Интересующийся
Сообщения: 15
Зарегистрирован: 16 авг 2016, 07:17
Репутация: 0

Re: Критерий Бхаттачария

Сообщение Pilolin » 29 ноя 2016, 16:01

Обо всем по порядку.
1. Источник мне дали следующий Bhattacharyya, A. (1943). "On a measure of divergence between two statistical populations defined by their probability distributions". Bulletin of the Calcutta Mathematical Society. 35: 99–109. Но я перерыл все что смог, не нашел =(
2. Только что нашел "коэффициент бхаттачария" ссылка https://en.wikipedia.org/wiki/Bhattacharyya_distance насколько я понимаю p и q это вероятность и 1-вероятность. Но дальше если это так я вообще ничего не понимаю. -_- Туго у меня с этим.
3. Не совсем понял про модель и правдоподобие. По порядку - у меня имеется изображение я его кластеризую методом K-means. На различное количество классов, каким образом мне вычислить количество оптимальное?

gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Критерий Бхаттачария

Сообщение gamm » 29 ноя 2016, 17:22

Pilolin писал(а):Обо всем по порядку.
1. Источник мне дали следующий Bhattacharyya, A. (1943). "On a measure of divergence between two statistical populations defined by their probability distributions". Bulletin of the Calcutta Mathematical Society. 35: 99–109. Но я перерыл все что смог, не нашел =(
это расстояние, пакет R для вычисления приведен выше
2. Только что нашел "коэффициент бхаттачария" ссылка https://en.wikipedia.org/wiki/Bhattacharyya_distance насколько я понимаю p и q это вероятность и 1-вероятность. Но дальше если это так я вообще ничего не понимаю. -_- Туго у меня с этим.
это не ко мне. Пакет для вычисления приведен выше.
3. Не совсем понял про модель и правдоподобие. По порядку - у меня имеется изображение я его кластеризую методом K-means. На различное количество классов, каким образом мне вычислить количество оптимальное?
в такой постановке - никаким. Оптимальность всегда считается относительно некоторого критерия (что мы хотим получить в идеале), например минимальную ошибку квантизации или максимальное правдоподобие.

P.S. K-means для изображения это не есть хорошо, используйте хотя бы стандартную Isodata, Fuzzy c-means или Гауссовскую смесь. Есть всякие пакеты поверх того же QGIS и GRASS, в которых можно нажимать кнопки в соответствии с инструкцией, вам скорее туда - они сами все сделают.

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Критерий Бхаттачария

Сообщение bim2010 » 29 ноя 2016, 17:59

Svidzinska D. Mapping of landscape spatial dynamics patterns by the fuzzy clustering analysis
Пространственная агроэкология и рекультивация земель: монография / [ДЕМИДОВ А.А., КОБЕЦ А.С., ГРИЦАН Ю.И., ЖУКОВА.В.]. – Днепропетровск : Изд-во «Свидлер А.Л.», 2013. – 560 с.
Agriculture Field Characterization using GIS software and Scanned Color Infrared Aerial Photographs
Spatial analysis of Ardabil plain aquifer potable groundwater using fuzzy logic
FuzME
Отображение техноземов в географическом и экологическом пространствах
Гис-подход к оценке изменчивости электропроводнсти почвы под влиянием педотурбационной активности слепыша
Оптимальное число классов определяется по соотношению дробности/неопределенности классификации FPI MPE.
K-means для изображения это не есть хорошо
Можно статьи, материалы на основе которых сделан такой вывод?
Программа FuzMe как раз и использует Fuzzy k-means, универсальный алгоритм неуправляемой нечеткой классификации с оценкой ее общей неопределенности, обоснованием оптимального числа классов и эффектной визуализацией процесса классификации.

gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Критерий Бхаттачария

Сообщение gamm » 29 ноя 2016, 20:15

bim2010 писал(а):Можно статьи, материалы на основе которых сделан такой вывод?
Программа FuzMe как раз и использует Fuzzy k-means, универсальный алгоритм неуправляемой нечеткой классификации.
понимаете в чем дело, вы знаете много фамилий, а я знаю много формул - несмотря на похожие названия K-means и Fuzzy c-means это разные вещи. Fuzzy c-means - это приближенный вариант EM алгоритма для гауссовой смеси, который нормально работает только если компоненты имеют одинаковую дисперсию (и желательно независимы). Из ссылок могу процитировать вики про Fuzzy c-means:
Using a mixture of Gaussians along with the expectation-maximization algorithm is a more statistically formalized method which includes some of these ideas: partial membership in classes.
Выводы все тривиальные, следуют из формул, и не требует специальных ссылок. И чтобы не рассказывать про формулы, я и рекомендовал ТС обратиться к специалистам по кнопкам. Но за свои слова я отвечаю, и могу их обосновать без всяких ссылок на какие-то фамилии, поскольку это математика, а не общественные науки.

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Критерий Бхаттачария

Сообщение bim2010 » 29 ноя 2016, 21:09

Как говорил ВВП: «Что может сказать о музыке Чайковского человек без прописки?”
Мы овладеваем более высоким стилем спора. Спор без фактов. Спор на темпераменте. Спор, переходящий от голословного утверждения на личность партнера. Выводя геоинформационные технологии на уровень мировых стандартов, которых никто не видел, мы до предела разовьем все семь чувств + интуицию, которая с успехом заменяет информацию.

bolotoved
Гуру
Сообщения: 920
Зарегистрирован: 30 дек 2008, 14:11
Репутация: 236
Откуда: Ханты-Мансийск
Контактная информация:

Re: Критерий Бхаттачария

Сообщение bolotoved » 30 ноя 2016, 07:58

Pilolin писал(а):Проводя кластеризацию, никогда не знаешь сколько классов нужно выбрать для "истинного" значения. В этом случае прибегают к различным оценкам...
Этих оценок действительно огромное количество, я бы вместо того, чтобы брать статью 70-ти летней давности, которую вам и найти-то не удалось, почитать более современный обзор. Напримрер: Halkidi M., Batistakis Y., Vazirgiannis M. On clustering validation techniques // Journal of intelligent information systems. 2001. Т. 17. № 2–3. С. 107–145.

Эта статья имеет столько же ссылок, сколько и статья Bhattacharyya, A. (1943), хотя написана спустя 60 лет и рассматривает большое число разных метрик. К тому же, эта статьялежит на видном месте.

Из реализованных программ стоит посмотреть в сторону алгоритмов кластеризации SciKit-learn (библиотека Python) и методов оценки кластеров. Там оч. хорошая документация и ссылки на необходимую лит-ру.

Для примера, в документации приводится оценка адекватности количества кластеров методом Silhouette distance как раз на примере результатов полученных с помощью кластеризации методом K-Means.

Однако, как уже заметил Gamm, метод K-Means для кластеризации изображений подходит крайне редко, чтобы результат был удовлетворительным, нужно, чтобы кластеры хорошо друг от друга отделялись, в природе же такое бывает редко, а кластеры и чаще всего представляют рассеянные взаимопроникающие облака. По этому, чтобы их лучше разделить, нужно использовать методы кластеризации учитывающие параметры этого рассеяния. Например, Gaussian Mixture Models, они тоже реализованы в SciKit.

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Критерий Бхаттачария

Сообщение bim2010 » 30 ноя 2016, 09:46

Неуправляемая классификация в FuzMe.
Управляемая классификация
Козлов Д.Н. Цифровой ландшафтный анализ при крупномасштабном картографировании структуры почвенного покрова.
FuzME is a PC Windows program for calculation of Fuzzy k-means with/without extragrades.
Примеры использования K-Means для классификации снимков Landsat:
Forest Cover Change Analysis - Landsat + SAGA GIS
Land cover change analysis - Band difference technique
unsupervised classification in QGIS: kmeans or part two.

gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Критерий Бхаттачария

Сообщение gamm » 30 ноя 2016, 10:07

По поводу классификации. По умолчанию все почему-то предполагают, что нужно получить классы, отделенные друг от друга чем дальше, тем лучше, а перекрытие классов - это плохо. Однако для природных систем, в отличие от искусственных, такое практически никогда не получится, в природе мы имеем континуум (той же растительности), и постоянные градиенты, смеси (в статистическом смысле), и т.д. Поэтому задачей классификации может быть использование большого числа классов для полного описания распределения (вместо его загрубления ядрами классов), выявление топологии этого распределения, ее визуализация, и районирования территории с выявлением (и отображением) градиентов.

Вместо этого мы постоянно видим попытки выделить дискретные классы, провести границы там, где их на самом деле нет, и последующие ожесточенные споры ученых (со ссылками на разные фамилии - поскольку объективных аргументов нет) по поводу того, кто и где неправильно провел границу.

Поэтому сама задача выбора "правильного" числа классов часто является не то что не решаемой, а просто неадекватной имеющейся природной системе.
bim2010 писал(а):Мы овладеваем более высоким стилем спора. Спор без фактов.
требует ли утверждение, что 2*2=4 ссылки на публикации? Мне кажется, что нет. Если вместо просьб привести фамилии попросите обосновать то, что я сказал, то я это сделаю. А обсуждать писания людей, которые рассматривают математические методы как "черный ящик", и их "изучают", пытаясь, нажимая кнопки, понять, чего они делают - старый я для современного постиндустриального карго-культа ...

bolotoved
Гуру
Сообщения: 920
Зарегистрирован: 30 дек 2008, 14:11
Репутация: 236
Откуда: Ханты-Мансийск
Контактная информация:

Re: Критерий Бхаттачария

Сообщение bolotoved » 30 ноя 2016, 11:03

gamm писал(а):...в природе мы имеем континуум.
Думаю, что спор между континуалистами и организмистами (дискретчиками) еще не улегся, хотя многие познали дао единства противоположностей и вроде бы успокоились :)

На практике континуумами оперировать очень сложно. Часто сложно оперировать и большим количеством классов. Приведу пример, зачем, например я использую редукцию континуумов с помощью кластеризации. Естественно, я не утверждаю, что мой подход абсолютно верный, возможно, он вообще неправильный, но он явно лучше, чем некоторые другие.

Допустим, есть некоторая достаточно обширная и малоизвестная вам территория. Нужно в ограниченные сроки собрать как можно большую информацию о разнообразии растительности этого региона. Т.е. вам нужно проложить маршруты, чтобы они с одной стороны были посильными, с другой -- покрывали максимально большое количество растительных сообществ. Чаще всего эта задача решается с помощью визуального анализа карты или снимка + интуиция. Этот подход можно было бы дополнить разбиением территории на предварительные типы. В этом случае можно было бы применить и подход со случайным стратифицированным распределением площадок, когда в каждом типе случайным образом закладывается определенное количество точек сбора информации. В континууме это сделать сильно сложнее.

Еще в пользу поиска ядер кластеров. В той же геоботанике есть подход Браун-Бланке (дискретная классификация сообществ растений) когда собирается большой массив описаний, а затем из них выбираются ядра - "наиболее типичные" сообщества включающие определенный спектр видов индикаторов. Или эти "типичные" сообщества формируются искусственно, путем объединения нескольких реальных описаний. Остальные описания рассматриваются как переходные между ядрами. Этот подход часто оправдывает себя на практике. Например, зная ядро мы можем дать ему имя узнаваемое в научном сообществе, для ядра характерен определенный список верных ему видов растений, для ядра характерны определенные экологические условия и т.п.

Одуванчик лекарственный - пример дискретной (линнеевской) сущности, одуванчик можно дробить на бесконечное количество микровидов, определять которые в состоянии только десяток человек на планете. Но пример абсолютного континууалистического взгляда -- это признание уникальной каждой отдельной особи с ее индивидуальным генотипом (одуваны самоопыляются) и, вероятно, вообще, отказ от понятия вида. На практике же нам нужно просто сварить варенье из одуванчика.

gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Критерий Бхаттачария

Сообщение gamm » 30 ноя 2016, 12:03

bolotoved писал(а):На практике континуумами оперировать очень сложно.
традиционными методами - вообще невозможно, ординация не сильно помогает, поскольку больше одной оси построить трудно, начинаются причуды типа DCA.

Использование адекватных методов помогает, все ядра и градиенты укладываются на плоскость или в 3D, и стройте себе районирование территории, объединяя классы вокруг ядра.

Что же касается "зная ядро мы можем дать ему имя узнаваемое в научном сообществе", то откройте любой ботанический журнал, где публикуются синтаксономисты растительности, и насладитесь битвами - они там постоянно друг друга обличают, что не туда описание отнесли, и трясут научными школами. Вообще, наличие враждующих школ обычно свидетельствует об отсутствии объективных критериев. Во, попался под руку пример, с Миркиным вздумали бороться, слабые никчемные люди, продромусами машут тыц.

Даже с Браун-Бланке все непросто, там тоже континуум наблюдается (самих классификаторов), широтный - на севере доминирует доминантная классификация, южнее - Браун-Бланке, а в тропиках проективное покрытие уже никто посчитать не может.

bolotoved
Гуру
Сообщения: 920
Зарегистрирован: 30 дек 2008, 14:11
Репутация: 236
Откуда: Ханты-Мансийск
Контактная информация:

Re: Критерий Бхаттачария

Сообщение bolotoved » 30 ноя 2016, 12:58

gamm писал(а):Использование адекватных методов помогает, все ядра и градиенты укладываются на плоскость
"Укладывание градиента на плоскость" у меня ассоциируется с картами Кохонена. Можете уточнить и пару ключевых слов дать.

Г. Таран ЖЖ которого вы процитировали большой спец, хотя и со специфичным характером. Б. Миркин вам, конечно ближе, потому что он использует язык математики. Таран - принадлежит другой культуре, для него ошибка в определении мха -- это фактически свидетельство профнепригодности геоботаника.

bim2010
Гуру
Сообщения: 977
Зарегистрирован: 27 янв 2009, 22:57
Репутация: 258

Re: Критерий Бхаттачария

Сообщение bim2010 » 30 ноя 2016, 14:31


gamm
Гуру
Сообщения: 4168
Зарегистрирован: 15 окт 2010, 08:33
Репутация: 1107
Ваше звание: программист
Откуда: Казань

Re: Критерий Бхаттачария

Сообщение gamm » 30 ноя 2016, 14:48

bolotoved писал(а):"Укладывание градиента на плоскость" у меня ассоциируется с картами Кохонена. Можете уточнить и пару ключевых слов дать.
ага, есть еще GTM имBishop (Generative Topographic Mapping), и обобщения SOM сделанные в Бонне (типа Growing grid, хотя у них интереснее построение топологии с выделением связных кластеров произвольной формы, которая Growing Neural Gas with Utility, посмотрите у них демку тыц).

Я регулярно что-нибудь укладываю. Для растительности нужна предварительная обработка матрицы site/spec, и переход к вероятностной модели, типа сглаживания Бейтса.
Г. Таран ЖЖ которого вы процитировали большой спец, хотя и со специфичным характером.
Б.Миркин тоже с характером, я вам доложу. Но речь об отсутствии более-менее объективной истины.

Ответить

Вернуться в «Я новичок!»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 5 гостей