Mutasi, berdasarkan baris, berdasarkan string yang cocok atau NA di subset kolom

Aug 19 2020

Adakah saran tentang cara mencocokkan string, dalam satu baris, di beberapa kolom?

Diadaptasi dari Hapus baris yang semua variabelnya NA menggunakan dplyr yang hanya cocok dengan NA di seluruh kolom, dan memfilternya - bukan membuat variabel baru.

Contoh mainan:

library(dplyr)
df <- tibble(a = c('a', 'a', 'a', NA), 
             b1 = c('b', 'c', NA, NA), 
             b2 = c('d', NA, NA, NA),
             b3 = c('e', NA, NA, NA),
             b4 = c('f', NA, NA, NA))
df

# A tibble: 4 x 5
  a     b1    b2    b3    b4   
  <chr> <chr> <chr> <chr> <chr>
1 a     b     d     e     f    
2 a     c     NA    NA    NA   
3 a     NA    NA    NA    NA   
4 NA    NA    NA    NA    NA 

Untuk membuat variabel baru all_najika seluruh baris adalah NA:

df %>% 
  rowwise() %>% 
  mutate(all_na = all(is.na(across())))


# A tibble: 4 x 6
# Rowwise: 
  a     b1    b2    b3    b4    all_na
  <chr> <chr> <chr> <chr> <chr> <lgl> 
1 a     b     d     e     f     FALSE 
2 a     c     NA    NA    NA    FALSE 
3 a     NA    NA    NA    NA    FALSE 
4 NA    NA    NA    NA    NA    TRUE   

Untuk membuat variabel baru jika hanya sebagian dari kolom (dimulai dengan 'b') adalah NA b_is_na

df %>% 
  rowwise() %>% 
  mutate(b_is_na = all(is.na(across(starts_with('b'))))) %>% 
  ungroup()

# A tibble: 4 x 6
  a     b1    b2    b3    b4    b_is_na
  <chr> <chr> <chr> <chr> <chr> <lgl>  
1 a     b     d     e     f     FALSE  
2 a     c     NA    NA    NA    FALSE  
3 a     NA    NA    NA    NA    TRUE   
4 NA    NA    NA    NA    NA    TRUE   

Pertanyaan:

Namun, saya tidak yakin cara membuat variabel jika dalam satu baris, untuk subset kolom adalah string yang cocok ATAU NA, misalnya,'c' or NA

Output yang diinginkan:

# A tibble: 4 x 6
  a     b1    b2    b3    b4    b_is_na
  <chr> <chr> <chr> <chr> <chr> <lgl>  
1 a     b     d     e     f     FALSE  
2 a     c     NA    NA    NA    TRUE  
3 a     NA    NA    NA    NA    TRUE   
4 NA    NA    NA    NA    NA    TRUE   

Jawaban

1 akrun Aug 19 2020 at 02:58

Sebuah base Ropsi dan opsi vektorisasi efisien akan menjadi rowSumslogismatrix

nm1 <- startsWith(names(df), 'b')
df$b_is_na <- rowSums(df[nm1] == 'c'|is.na(df[nm1])) > 0 df$b_is_na
#[1] FALSE  TRUE  TRUE  TRUE

Ini juga dapat digunakan dengan mutate

library(dplyr)
df %>%
  mutate(b_is_na = rowSums(select(., starts_with('b')) == 
             'c'|is.na(select(., starts_with('b')))) > 0)
# A tibble: 4 x 6
#  a     b1    b2    b3    b4    b_is_na
#  <chr> <chr> <chr> <chr> <chr> <lgl>  
#1 a     b     d     e     f     FALSE  
#2 a     c     <NA>  <NA>  <NA>  TRUE   
#3 a     <NA>  <NA>  <NA>  <NA>  TRUE   
#4 <NA>  <NA>  <NA>  <NA>  <NA>  TRUE 

CATATAN: Menggunakan rowwiseakan menjadi cara yang tidak efisien

Atau dengan c_across, tetapi mungkin tidak terlalu optimal

df %>% 
   rowwise %>%
   mutate(b_is_na = {
        tmp <- c_across(starts_with('b'))
         any(is.na(tmp)|tmp == 'c') }) %>%
   ungroup
# A tibble: 4 x 6
#  a     b1    b2    b3    b4    b_is_na
#  <chr> <chr> <chr> <chr> <chr> <lgl>  
#1 a     b     d     e     f     FALSE  
#2 a     c     <NA>  <NA>  <NA>  TRUE   
#3 a     <NA>  <NA>  <NA>  <NA>  TRUE   
#4 <NA>  <NA>  <NA>  <NA>  <NA>  TRUE