R - ks-test (Kolmogorov-Smirnov test)
Добавлено: 18 июн 2013, 19:50
Вопрос был немного изменен и задан на другом форуме. Чтобы закрыть тему - размещаю здесь полученный ответ. В общем, мне он уже достаточен, но если будет еще значимое добавление по моему второму уточняющему вопросу, то также размещу его здесь.
Посты после сообщения первого топика - не связаны с этим сообщением, т.к. были сделаны прежде.
Мой вопрос:
Я только начинаю изучать R, не могли бы вы помочь разобраться с деталями проведения в R стат. анализа Kolmogorov-Smirnov для двух выборок?.
Ориентировалась по хелпу к ks.test (это пакет базовой библиотеки - stats)
Для сравнения проводила анализ с теми же данными в R и в SPSS.
Код в R:
И результаты Колмогоров-Смирнов теста для двух выборок с этими же данными в SPSS (данные из итоговой таблицы)
Вопрос первый. В тесте (ks.test), который я использовала - в хелпе не указано (или же я не понимаю где это), как задавать критерий значимости (по идее ведь его можно выбирать самому). Также не указано, какой они берут по умолчанию критерий значимости. (в SPSS он указан – 0,05).
Как можно понять, какой используется по умолчанию критерий значимости в ks.test?. Как можно задать другой критерий значимости (н-р 0.001 , 0.001 и т.п.)?
Исходя из моего кода в R – является ли он правильным, или там как раз не хватает задания критерия значимости?
И вопрос второй.
Как видно из кода R и результатов SPSS – определенная значимость (p-value) примерно одинаковы (0.2999 в R и 0,291 в SPSS). То есть можно предположить, что расчет в R проведен всё же правильно. Но ответ SPSS – “Нулевая гипотеза принимается”, а ответ R – “alternative hypothesis: two-sided”. Что означает такой ответ R? Что он принимает альтернативную гипотезу? Но почему если это так? Или же это просто такой стиль оформления исходных условий проведения теста? Но по идее, он, как и SPSS, должен написать именно, что "нулевая гипотеза принимается"
Полученный ответ:
Посты после сообщения первого топика - не связаны с этим сообщением, т.к. были сделаны прежде.
Мой вопрос:
Я только начинаю изучать R, не могли бы вы помочь разобраться с деталями проведения в R стат. анализа Kolmogorov-Smirnov для двух выборок?.
Ориентировалась по хелпу к ks.test (это пакет базовой библиотеки - stats)
Для сравнения проводила анализ с теми же данными в R и в SPSS.
Код в R:
> #1. Test September and November
> September <- c (2.4758620690, 1.0232558140, 2.4800000000, 1.5468750000, 3.1358024691, 2.6000000000,2.1904761905, 1.2, 1.4210526316, 1.6666666667, 3.4177215190, 1.1363636364, 1.2790697674)
> c=1
> November<- c(2.350, 1.0638297872, 2.8571428571, 2.40, 1.7407407407, 1.9565217391, 0.50, 1.0512820513, 1.5510204082, 0.880952381, 6.8777777778, 0.6097560976, 0.7894736842)
> c=1
> # Do September and November come from the same distribution?
> ks.test(September, November)
Two-sample Kolmogorov-Smirnov test
data: September and November
D = 0.3846, p-value = 0.2999
alternative hypothesis: two-sided
И результаты Колмогоров-Смирнов теста для двух выборок с этими же данными в SPSS (данные из итоговой таблицы)
Мои вопросы по проведению этого анализа в R.1.Нулевая гипотеза: «Распределение А является одинаковым для категорий month»
2. Критерий: «Критерий Колмогорова-Смирнова для независимых выборок»
3. Значимость 0,291
4. Решение: «Нулевая гипотеза принимается»
Примечание: «Выводятся асимптотические значимости. Уровень значимости равен 0.05»
Вопрос первый. В тесте (ks.test), который я использовала - в хелпе не указано (или же я не понимаю где это), как задавать критерий значимости (по идее ведь его можно выбирать самому). Также не указано, какой они берут по умолчанию критерий значимости. (в SPSS он указан – 0,05).
Как можно понять, какой используется по умолчанию критерий значимости в ks.test?. Как можно задать другой критерий значимости (н-р 0.001 , 0.001 и т.п.)?
Исходя из моего кода в R – является ли он правильным, или там как раз не хватает задания критерия значимости?
И вопрос второй.
Как видно из кода R и результатов SPSS – определенная значимость (p-value) примерно одинаковы (0.2999 в R и 0,291 в SPSS). То есть можно предположить, что расчет в R проведен всё же правильно. Но ответ SPSS – “Нулевая гипотеза принимается”, а ответ R – “alternative hypothesis: two-sided”. Что означает такой ответ R? Что он принимает альтернативную гипотезу? Но почему если это так? Или же это просто такой стиль оформления исходных условий проведения теста? Но по идее, он, как и SPSS, должен написать именно, что "нулевая гипотеза принимается"
Полученный ответ:
Дальше обсуждение продолжилось, кому интересно - читайте там.Нет, R не делает за Вас решения по поводу верности гипотез, просто выводит p-value, а дальше уже Вы, в зависимости от требуемого уровня значимости, делаете выводы. Именно поэтому указывать нигде уровень значимости не нужно. (Кажется, как-то это можно сделать, но не вижу необходимости).
Two-sided означает, что сравнение выборок производится "в обе стороны", то есть как одна больше другой, так и другая больше первой. То есть, H0 - выборки одинаковые, H1 - они различаются. Бывает односторонняя гипотеза, то есть H1 - первая выборка больше второй.