벡터가 포함 된 데이터 프레임 열 필터링

Jan 13 2021

셀의 전체 내용에서 벡터를 포함하는 열을 필터링하고 싶습니다. 나는 R dplyr을 보았다 . 숫자 형 벡터 열이 포함 된 데이터 프레임을 필터링 하지만 필요는 약간 다릅니다.

샘플 df (아래의 전체 표현)

제공합니다 (일치하는 색상으로 구분됨)

vec 열로 group_by 할 수 있습니다 .

개별 셀의 경우 직선 비교는 작동 하지 않지만 동일합니다 .

내가 놓친 간단한 해결책이 있다고 확신합니다.

더 고급 요구 사항은 셀의 내용이 임의의 순서로 일치하는 위치를 일치시키는 것이므로 위의 6 개의 주황색, 보라색 및 금색으로 강조 표시된 셀이 모두 일치합니다. 벡터뿐만 아니라 목록에서도 작동하는 솔루션은 미래에 필요할 수 있으므로 훌륭 할 것입니다.

전체 표현 :

#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>     filter, lag
#> The following objects are masked from 'package:base':
#>     intersect, setdiff, setequal, union

df <- tibble::tribble(
    ~id, ~len, ~vec,
     1L,   1L,   1L,
     2L,   2L,   1:2,
     3L,   2L,   c(1L, 2L),
     4L,   3L,   c(1L, 2L, 3L),
     5L,   3L,   1:3,
     6L,   3L,   c(1L, 3L, 2L),
     7L,   3L,   c(3L, 2L, 1L),
     8L,   3L,   c(1L, 3L, 2L),
     9L,   4L,   c(1L, 2L, 4L, 3L),
    10L,   3L,   c(3L, 2L, 1L)
#> # A tibble: 10 x 3
#>       id   len vec      
#>    <int> <int> <list>   
#>  1     1     1 <int [1]>
#>  2     2     2 <int [2]>
#>  3     3     2 <int [2]>
#>  4     4     3 <int [3]>
#>  5     5     3 <int [3]>
#>  6     6     3 <int [3]>
#>  7     7     3 <int [3]>
#>  8     8     3 <int [3]>
#>  9     9     4 <int [4]>
#> 10    10     3 <int [3]>

dfg <- df %>% 
    group_by(vec) %>% 
    summarise(n = n()
             ,total_len = sum(len))
#> `summarise()` ungrouping output (override with `.groups` argument)
#> # A tibble: 6 x 3
#>   vec           n total_len
#>   <list>    <int>     <int>
#> 1 <int [1]>     1         1
#> 2 <int [2]>     2         4
#> 3 <int [3]>     2         6
#> 4 <int [3]>     2         6
#> 5 <int [3]>     2         6
#> 6 <int [4]>     1         4

df$vec[4] == df$vec[5]
#> Error in df$vec[4] == df$vec[5]: comparison of these types is not implemented

identical(df$vec[4], df$vec[5])
#> [1] TRUE

df %>% filter(vec == c(1L, 2L, 3L))
#> Warning in vec == c(1L, 2L, 3L): longer object length is not a multiple of
#> shorter object length
#> Error: Problem with `filter()` input `..1`.
#> x 'list' object cannot be coerced to type 'integer'
#> i Input `..1` is `vec == c(1L, 2L, 3L)`.

df %>% filter(identical(vec, c(1L, 2L, 3L)))
#> # A tibble: 0 x 3
#> # ... with 3 variables: id <int>, len <int>, vec <list>

df %>% filter(identical(vec, vec[5]))
#> # A tibble: 0 x 3
#> # ... with 3 variables: id <int>, len <int>, vec <list>

Created on 2021-01-13 by the reprex package (v0.3.0)


2 RonakShah Jan 13 2021 at 14:19

던져 rowwise체크도하고 length경고를 방지하기 위해 비교하는 벡터를.


compare <- c(1L, 2L, 3L)

df %>% 
  rowwise() %>%
  filter(length(vec) == length(compare) && all(vec == compare))

#     id   len vec      
#  <int> <int> <list>   
#1     4     3 <int [3]>
#2     5     3 <int [3]>

우리는 filter더 큰 데이터 세트에서 더 빠를 수있는 길이로 먼저 할 수 있습니다.

df %>% 
  filter(lengths(vec) == length(compare)) %>%
  rowwise() %>%
  filter(all(vec == compare)) 

기본 R의 유사한 논리 :

subset(df, sapply(vec, function(x) 
                  length(x) == length(compare) && all(x == compare)))
1 akrun Jan 13 2021 at 23:48

우리는 사용할 수 있습니다 map

compare <- c(1L, 2L, 3L)
df %>%
   filter(map_lgl(vec, ~ length(.x) == length(compare)  && all(.x == compare)))
 # A tibble: 2 x 3
 #     id   len vec      
 #  <int> <int> <list>   
 #1     4     3 <int [3]>
 #2     5     3 <int [3]>