Obracanie od szerokiego do długiego formatu, a następnie zagnieżdżanie kolumn

Jan 04 2021

Otrzymuję dane w szerokim formacie. Każdy wiersz dotyczy zmiennej zewnętrznej w stosunku do bieżącej tabeli i możliwych wartości odpowiednich dla tej zmiennej. Próbuję: (1) przestawić do formatu długiego i (2) zagnieździć przestawione wartości.

Przykład

library(tibble)

df_1 <-
  tribble(~key, ~values.male, ~values.female, ~values.red, ~values.green, ~value,
        "gender", 0.5, 0.5, NA, NA, NA,
        "age", NA, NA, NA, NA, "50",
        "color", NA, NA, TRUE, FALSE, NA,
        "time_of_day", NA, NA, NA, NA, "noon")

## # A tibble: 4 x 6
##   key         values.male values.female values.red values.green value
##   <chr>             <dbl>         <dbl> <lgl>      <lgl>        <chr>
## 1 gender              0.5           0.5 NA         NA           NA   
## 2 age                NA            NA   NA         NA           50   
## 3 color              NA            NA   TRUE       FALSE        NA   
## 4 time_of_day        NA            NA   NA         NA           noon

W tym przykładzie widzimy, że gendermoże mieć albo female = 0.5i male = 0.5. Z drugiej strony agemoże mieć tylko jedną wartość 50. Z wiersza # 3 dowiadujemy się, że colormogą mieć wartości red = TRUEi green = FALSE, i time_of_day = noon.

Dlatego tabela przestawna powinna mieć zagnieżdżoną postać:

my_pivoted_df <-
  structure(
    list(
      var_name = c("gender", "age", "color", "time_of_day"),
      vals = list(
        structure(
          list(
            level = c("male", "female"),
            value = c(0.5,
                      0.5)
          ),
          row.names = c(NA, -2L),
          class = c("tbl_df", "tbl", "data.frame")
        ),
        "50",
        structure(
          list(
            level = c("red", "green"),
            value = c(TRUE,
                      FALSE)
          ),
          row.names = c(NA, -2L),
          class = c("tbl_df", "tbl", "data.frame")
        ),
        "noon"
      )
    ),
    row.names = c(NA, -4L),
    class = c("tbl_df", "tbl",
              "data.frame")
  )


## # A tibble: 4 x 2
##   var_name    vals            
##   <chr>       <list>          
## 1 gender      <tibble [2 x 2]>
## 2 age         <chr [1]>       
## 3 color       <tibble [2 x 2]>
## 4 time_of_day <chr [1]>

Moja próba rozwiązania tego

Jest kilka problemów z df_1. Po pierwsze, obecne nazewnictwo kolumn jest niewygodne. Takie jak nagłówki valuenie są idealne, ponieważ są one sprzeczne z pivot_longer()„s ".value"mechanizmu. Po drugie, df_1ma values(w liczbie mnogiej), gdy keyma więcej niż jedną opcję (np. „Czerwony” i „zielony” dla color), ale value(liczba pojedyncza), gdy jest tylko jedna opcja key(na przykład z age). Poniżej znajduje się mój nieudany kod, zainspirowany tą odpowiedzią .

library(tidyr)
library(dplyr)

df_1 %>%
  rename_with( ~ paste(.x, "single", sep = "."), .cols = value) %>% ## changed the header because otherwise it breaks
  pivot_longer(cols = starts_with("val"),
               names_to = c("whatevs", ".value"), names_sep = "\\.")


## # A tibble: 8 x 7
##   key         whatevs  male female red   green single
##   <chr>       <chr>   <dbl>  <dbl> <lgl> <lgl> <chr> 
## 1 gender      values    0.5    0.5 NA    NA    NA    
## 2 gender      value    NA     NA   NA    NA    NA    
## 3 age         values   NA     NA   NA    NA    NA    
## 4 age         value    NA     NA   NA    NA    50    
## 5 color       values   NA     NA   TRUE  FALSE NA    
## 6 color       value    NA     NA   NA    NA    NA    
## 7 time_of_day values   NA     NA   NA    NA    NA    
## 8 time_of_day value    NA     NA   NA    NA    noon

Brakuje mi jakichś spierających się sztuczek, aby to rozwiązać.

Odpowiedzi

4 stefan Jan 04 2021 at 06:10

Schludne i odwrotne podejście do osiągnięcia pożądanego rezultatu może wyglądać następująco:

library(tibble)

df_1 <-
  tribble(~key, ~values.male, ~values.female, ~values.red, ~values.green, ~value,
          "gender", 0.5, 0.5, NA, NA, NA,
          "age", NA, NA, NA, NA, "50",
          "color", NA, NA, TRUE, FALSE, NA,
          "time_of_day", NA, NA, NA, NA, "noon")

library(tidyr)
library(dplyr)
library(purrr)

df_pivoted <- df_1 %>% 
  mutate(across(everything(), as.character)) %>% 
  pivot_longer(-key, names_to = "level", names_prefix = "^values\\.", values_drop_na = TRUE) %>% 
  group_by(key) %>% 
  nest() %>% 
  mutate(data = map(data, ~ if (all(.x$level == "value")) deframe(.x) else .x))
df_pivoted
#> # A tibble: 4 x 2
#> # Groups:   key [4]
#>   key         data            
#>   <chr>       <list>          
#> 1 gender      <tibble [2 × 2]>
#> 2 age         <chr [1]>       
#> 3 color       <tibble [2 × 2]>
#> 4 time_of_day <chr [1]>

EDYCJA Po wyjaśnieniu w komentarzach na temat pożądanego wyniku możemy po prostu pozbyć się instrukcji map jako końca (która w zasadzie miała na celu konwersję tibbles dla kategorii bez poziomów na wektor) i dodać instrukcję mutate przed zagnieżdżeniem, aby zastąpić poziom z NA dla kategorii bez level: