Извлечение текста по шаблону
Добавлено: 24 июн 2014, 19:23
Доброе время суток! Возникла задача извлечь несколько повторяющихся частей из текстового вектора. Вектор:
[1] 1) 20140205, ИВАНОВ ИВАН ИВАНОВИЧ , т. 5763954 2) 20120409, ПЕТРОВ ПЕТР ПЕТРОВИЧ , т. 5868639333
[2] 2) 20120609, СТОЛЯРОВ СТОЛЯР СТОЛЯРОВИЧ, т. 6884839220854
Мне из него нужно извлечь только фамилии (сохранив их при этом в одной строке):
[1] ИВАНОВ ПЕТРОВ
[2] СТОЛЯРОВ
Но я не могу разобраться с регулярными выражениями. Если создавать шаблон, то нужно привязываться к тому, что в одной строке следуют несколько повторений. Шаблон выражения:
"([0-9]+\\) )([0-9]{8}, )([[:graph:]]+)"
- прекрасно распознаёт текст (с помощью gsub), но никак не получается извлечь части этого шаблона.
[1] 1) 20140205, ИВАНОВ ИВАН ИВАНОВИЧ , т. 5763954 2) 20120409, ПЕТРОВ ПЕТР ПЕТРОВИЧ , т. 5868639333
[2] 2) 20120609, СТОЛЯРОВ СТОЛЯР СТОЛЯРОВИЧ, т. 6884839220854
Мне из него нужно извлечь только фамилии (сохранив их при этом в одной строке):
[1] ИВАНОВ ПЕТРОВ
[2] СТОЛЯРОВ
Но я не могу разобраться с регулярными выражениями. Если создавать шаблон, то нужно привязываться к тому, что в одной строке следуют несколько повторений. Шаблон выражения:
"([0-9]+\\) )([0-9]{8}, )([[:graph:]]+)"
- прекрасно распознаёт текст (с помощью gsub), но никак не получается извлечь части этого шаблона.