Форумы GIS-Lab.info

Добрый день!

У меня есть две таблицы A и B

key <- 1:10
dd <- sample(1000:2000, 10, replace = TRUE)
A <- data.frame(key, dd)

k <- sample(1:10, 50, replace = TRUE)
ss <- sample(1000:2000, 50, replace = TRUE)
B <- data.frame(k, ss)

Как сделать, чтобы в таблице B в новом столбце были записаны значения из A$dd с условием, что A$key == B$k
В мануалах нашел, что это делает базовая функция merge(), но не могу разобраться какие параметры нужны.

Спасибо!

Поправка:
Лучше использовать left_join
https://gis-lab.info/forum/viewtopic.ph ... 03#p173003

VistaSV30 писал(а): ↑
07 июл 2020, 17:29
это делает функция базовая merge(),

не в вашем случае (merge - это inner join из SQL, насоздает лишнего).

Код: Выделить всё

B$new<-NA
pos<-match(B$k,A$key)
B$new[!is.na(pos)]<-A$dd[pos[!is.na(pos)]]

Спасибо!
Пока еще не совсем понял, как это работает.
Буду разбираться.

1. Создаем столбец, он нам нужен весь, поскольку, возможно, придется заполнять только часть, остальное останется NA
2. Ищем номера строк в А, в которых лежат ключи из В. Если что-то не найдется, будет NA
3. В те позиции В, для которых нашлось значение в А, вставляем значение. Значения NA, т.е не найденные ключи, исключаем из обработки.

Код: Выделить всё

B <- merge(x = B, 
           y = A, 
           by.x = "k", 
           by.y = "key")

nickleb, добрый день!
Основное назначение функции merge() - это слияние двух таблиц, при этом объединяются все столбцы таблиц.
Правильно я понимаю?

VistaSV30 писал(а): ↑
08 июл 2020, 09:31
при этом объединяются все столбцы таблиц

VistaSV30, здравствуйте!
Если нужны все столбцы из обеих таблиц, то можно так:

Код: Выделить всё

B <- sqldf::sqldf('select * from B inner join A on B.k = A.key')

Через merge, вероятно, также можно получить список всех столбцов -
посмотрите аргументы и их опции и попробуйте.
На больших таблицах и merge, и sqldf, наверное, будут работать медленнее, чем join'ы пакета dplyr.
Быстрее будут работать join'ы организованные через пакет data.table.
Поставленную Вами задачу gamm, хорошо же поэтапно выше решил и описал.
А я через merge попробовал... Сахар синтаксиса различных обёрток порой скрывает-растворяет соль сути решаемого...

gamm, Добрый день!
Почему-то с факторами не получается

Код: Выделить всё

key <- 1:4
dd <- c("RUS.83.12_1", "RUS.83.13_1", "RUS.83.14_1", "RUS.83.15_1")
A <- data.frame(key, dd)

k <- sample(1:4, 20, replace = TRUE)
ss <- sample(1000:2000, 20, replace = TRUE)
B <- data.frame(k, ss)

B$new<-NA
pos<-match(B$k,A$key)
B$new[!is.na(pos)]<-A$dd[pos[!is.na(pos)]]

Почему-то присваивает номера строк, а не сами значения A$dd.
Почему так происходит, просто формат A$dd поменялся.

... если факторы как таковые не нужны, -
то при создании data.frame'ов
принудительно используйте опцию:
stringsAsFactors = FALSE
В Вашем случае:

Код: Выделить всё

A <- data.frame(key, dd, stringsAsFactors = FALSE)

VistaSV30 писал(а): ↑
08 июл 2020, 11:17
происходит

Потому, что слева в присваивании не факторы, я полагаю. Фактор хранится как номер уровня и внешнее представление уровня (вот номер и присвоился). При создании поля задайте фактор с соответствующими уровнями. А еще лучше используйте символьные строки, будет меньше проблем. Как это сделать, уважаемый nickleb написал.

Теперь работает как надо!
Спасибо коллеги!

Форумы GIS-Lab.info

Как работает функция merge()

Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()

Re: Как работает функция merge()