¿Cómo evitar que la función slide () calcule un vector numérico en una lista?

Nov 25 2020

Tengo una data.framede una columna:

Price <- c(1, 2, 5, 3, 1, 4, 7, 10, 6)
df <- data.frame(Price)

Quiero calcular el valor máximo de cada siete números, lo que da como resultado:

df$MaxPrice <- c(1, 2, 5, 5, 5, 5, 7, 10, 10)

Sin embargo, cuando intento calcular esta nueva columna con mutate()y slide(), me devuelve una lista dentro del marco de datos, en lugar de una variable numérica:

library(dplyr)
library(slider)

df <- df %>% 
  mutate(MaxPrice = slide(Price, max, .before = 7, .after = 0, .complete = F))

¿Por qué sucede esto y cómo hacer que se slide()devuelva una variable numérica?

Respuestas

3 akrun Nov 25 2020 at 20:18

Parece que el método predeterminado solicita la listsalida. De acuerdo a?slide

vec_ptype (diapositiva (.x)) == lista ()

y la descripción de .ptypees

.ptype - [vector (0) / NULL]

Un prototipo correspondiente al tipo de salida.

Si es NULL, el valor predeterminado, el tipo de salida se determina calculando el tipo común en los resultados de las llamadas a .f.

Si se proporciona, el resultado de cada llamada a .f se convertirá en ese tipo y la salida final tendrá ese tipo.

Si getOption ("vctrs.no_guessing") es TRUE, se debe proporcionar el .ptype. Esta es una forma de hacer que el código de producción exija tipos fijos.

En esencia basado en el código fuente (abajo), es por defecto el retorno de una listy no parece haber ninguna opción para evitar que a menos que se opta por métodos específicos descritos es decir, _veco_dbl

O podríamos flatten

library(dplyr)
library(slider)
library(purrr)
out <- df %>% 
    mutate(MaxPrice = slide(Price, max, .before = 7, .after = 0,
       .complete = FALSE) %>% flatten_dbl) 

str(out)
#'data.frame':  9 obs. of  2 variables:
# $ Price : num 1 2 5 3 1 4 7 10 6 # $ MaxPrice: num  1 2 5 5 5 5 7 10 10

O use el método específico del tipo, es decir slide_dbl

out <- df %>% 
    mutate(MaxPrice = slide_dbl(Price, max, .before = 7, .after = 0,
       .complete = FALSE) )

str(out)
#'data.frame':  9 obs. of  2 variables:
# $ Price : num 1 2 5 3 1 4 7 10 6 # $ MaxPrice: num  1 2 5 5 5 5 7 10 10

Si revisamos el código fuente de slide, llama slide_imply asume que .ptypeas listy no hay opción para pasar esa información enslide

slide
function (.x, .f, ..., .before = 0L, .after = 0L, .step = 1L, 
    .complete = FALSE) 
{
    slide_impl(.x, .f, ..., .before = .before, .after = .after, 
        .step = .step, .complete = .complete, .ptype = list(), 
        .constrain = FALSE, .atomic = FALSE)
}

Ahora, compare eso con el _dblmétodo

slide_dbl
function (.x, .f, ..., .before = 0L, .after = 0L, .step = 1L, 
    .complete = FALSE) 
{
    slide_vec_direct(.x, .f, ..., .before = .before, .after = .after, 
        .step = .step, .complete = .complete, .ptype = double())
}

1 SteveM Nov 25 2020 at 21:01

Puedes usar la cummaxfunción en la base R:

Price <- c(1, 2, 5, 3, 1, 4, 7, 10, 6)
cummax(Price)
[1]  1  2  5  5  5  5  7 10 10

Para caso de múltiples vectores. Cargue el vector de datos en una matriz y aplique cummax a las columnas. Genera una matriz de vectores cummax para el tratamiento de seguimiento: