別のテーブルに基づいてデータフレーム内の変数のクラスを変換するカスタム関数を作成する
私は以下を取り入れることができる関数を書き込もうとしています:
df_1
列のクラスを変換する必要があるデータフレーム()- の各変数の行を
df_2
持つ別のデータフレーム()df_1
df_2
各変数をdf_1
変換するクラスを指定する列
例
1-df_1
私のデータ(および変換する変数のクラス)を含むデータフレーム()
library(tibble)
library(dplyr)
set.seed(2021)
df_1 <-
tibble(name = c("john", "jack", "mary", "matt", "elizabeth", "richard", "carlos", "george", "ferdinand", "william"),
height = sample(155:200, size = 10),
weight = sample(50:100, size = 10),
age = sample(20:100, size = 10),
gender = sample(c("male", "female"), size = 10, replace = TRUE),
preferred_pet = sample(c("dog", "cat", "frog", "rabbit"), size= 10, replace = TRUE)) %>%
mutate(across(everything(), as.character))
## # A tibble: 10 x 6
## name height weight age gender preferred_pet
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 john 161 100 38 female frog
## 2 jack 192 67 87 female dog
## 3 mary 193 52 24 male rabbit
## 4 matt 166 95 92 male dog
## 5 elizabeth 160 89 82 female cat
## 6 richard 199 75 57 male dog
## 7 carlos 195 85 37 female rabbit
## 8 george 159 86 62 male rabbit
## 9 ferdinand 177 71 78 female cat
## 10 william 197 80 89 female rabbit
df_2
2--df_1
列を変換するクラスを持つデータフレーム()
set.seed(2021)
df_2 <-
tibble(var_name = c("name", "height", "weight", "gender", "preferred_pet", "record_creation"),
var_class = c("character", "numeric", "numeric", "factor", "factor", "datetime")) %>%
slice(sample(1:n()))
## # A tibble: 6 x 2
## var_name var_class
## <chr> <chr>
## 1 weight numeric
## 2 record_creation datetime
## 3 height numeric
## 4 name character
## 5 gender factor
## 6 preferred_pet factor
3--クラス変換のための関数の構築
ここで@akrunのソリューションを見てきましたが、これは私が達成しようとしているものにかなり近いようです。
library(purrr)
library(stringr)
my_df <- iris
my_types <- c("factor", "character", "double", "logical", "character")
my_df[] <- map2(my_df, str_c("as.", my_types), ~ get(.y)(.x))
ただし、このソリューションは、の変数名がdf_1
必ずしもに表示されない私のような状況には対応していません。df_2
同様に、df_2$var_name
に必ずしも表示されない変数も含まれていますdf_1
。
にあるdf_1
情報に従ってのvarsクラスを変換するための関数を構築するためのアイデアがあれば嬉しいですdf_2
。tidyverse
関数を使用して解決策を見つけることが理想的です。ありがとう!
回答
1 IanCampbell
ここでのアプローチの活用だacross
とはcur_column
:
library(dplyr) #version >= 1.0.0
df_1 %>%
mutate(across(any_of(df_2$var_name), ~get(paste0("as.",df_2[df_2$var_name == cur_column(),"var_class"]))(.x)))
# A tibble: 10 x 6
name height weight age gender preferred_pet
<chr> <dbl> <dbl> <chr> <fct> <fct>
1 john 161 100 38 female frog
2 jack 192 67 87 female dog
3 mary 193 52 24 male rabbit
4 matt 166 95 92 male dog
5 elizabeth 160 89 82 female cat
6 richard 199 75 57 male dog
7 carlos 195 85 37 female rabbit
8 george 159 86 62 male rabbit
9 ferdinand 177 71 78 female cat
10 william 197 80 89 female rabbit
any_of
選択ヘルパーはあなたが唯一の存在であるのmutate列にしてみてくださいことを保証しますdf_2
。
2番目の引数は、存在する列に適用される関数です。を使用cur_column()
して、変更されている列の名前にアクセスできます。そこから、その列名を検索してdf_2
、var_class
必要なものを返します。次にget()
、ベースRから使用して適切な関数を返し、それを(.x)
。
関数を定義し、他のtidyverse関数の場合と同じように、引用符で囲まれていない列名を渡す場合は、次を使用できますrlang::enquo
。
library(rlang)
change_class_by_table <- function(data,data_ref,column_name,column_class){
data %>%
mutate(across(any_of(pull(data_ref,!!enquo(column_name))),
~get(paste0("as.",filter(data_ref, !!enquo(column_name) == cur_column()) %>%
pull(!!enquo(column_class))))(.x)))
}
change_class_by_table(df_1,df_2,var_name,var_class)
## A tibble: 10 x 6
# name height weight age gender preferred_pet
# <chr> <dbl> <dbl> <chr> <fct> <fct>
# 1 john 161 100 38 female frog
# 2 jack 192 67 87 female dog
# 3 mary 193 52 24 male rabbit
# ...