Основы работы с категориями
Добавлено: 12 мар 2009, 17:43
				
				Начал присматриваться к R, не могу решить простую задачку:
Дано: несколько текстовых файлов, содержащих перечисления некоторых категорий (категории в разных файлах могут быть разными, могут и частично совпадать). Например, файлы f1 и f2:
f1:
f2:
Нужно прочитать значения категорий из файлов и составить общую таблицу, в которой описна частота встречаемости категории в каждом файле:
Как читать данные из файла и как собрать набор категорий этого файла в кучу (похоже, они сами собой собираются и тогда вторая строка не нужна?) более-менее понятно:
Даже можно посмотреть число категорий и сколько раз они встречаются:
Не понятно:
			Дано: несколько текстовых файлов, содержащих перечисления некоторых категорий (категории в разных файлах могут быть разными, могут и частично совпадать). Например, файлы f1 и f2:
f1:
Код: Выделить всё
Иванов
Петров
Сидоров
Иванов
Иванов
ПетровКод: Выделить всё
Сидоров
Сидоров
Кошкин
Мышкин
Шишкин
ИвановКод: Выделить всё
Файл Иванов Петров Сидоров Кошкин Мышкин Шишкин
f1	0.5		0.333	0.1666	0	0	0
f2	0.1666	0		0.333	0.1666	0.1666	0.1666Код: Выделить всё
f1=read.table('f1.txt')
f1.fact=factor(x[[1]])Код: Выделить всё
summary(f1.fact)- 1) как объединить все категории разных файлов в одну таблицу 
 2) как расчитать частоты
 Поэтому прикрепляю кусок скрипта - вдруг кому еще понадобится. Скорее всего можно было написать и лучше (но я пока не знаю, как). Но это по крайней мере работает...
 Поэтому прикрепляю кусок скрипта - вдруг кому еще понадобится. Скорее всего можно было написать и лучше (но я пока не знаю, как). Но это по крайней мере работает...