R - Media, mediana y moda

El análisis estadístico en R se realiza mediante el uso de muchas funciones integradas. La mayoría de estas funciones forman parte del paquete básico de R. Estas funciones toman el vector R como entrada junto con los argumentos y dan el resultado.

Las funciones que discutimos en este capítulo son media, mediana y moda.

Media

Se calcula tomando la suma de los valores y dividiendo por el número de valores en una serie de datos.

La función mean() se utiliza para calcular esto en R.

Sintaxis

La sintaxis básica para calcular la media en R es:

mean(x, trim = 0, na.rm = FALSE, ...)

A continuación se muestra la descripción de los parámetros utilizados:

  • x es el vector de entrada.

  • trim se utiliza para eliminar algunas observaciones de ambos extremos del vector ordenado.

  • na.rm se utiliza para eliminar los valores perdidos del vector de entrada.

Ejemplo

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <- mean(x)
print(result.mean)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] 8.22

Aplicación de la opción de recorte

Cuando se proporciona el parámetro de recorte, los valores en el vector se ordenan y luego el número requerido de observaciones se elimina del cálculo de la media.

Cuando trim = 0.3, 3 valores de cada extremo se eliminarán de los cálculos para encontrar la media.

En este caso, el vector ordenado es (−21, −5, 2, 3, 4.2, 7, 8, 12, 18, 54) y los valores eliminados del vector para calcular la media son (−21, −5,2) desde la izquierda y (12,18,54) desde la derecha.

# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <-  mean(x,trim = 0.3)
print(result.mean)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] 5.55

Aplicación de la opción NA

Si faltan valores, la función media devuelve NA.

Para eliminar los valores faltantes del cálculo, utilice na.rm = TRUE. lo que significa eliminar los valores NA.

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)

# Find mean.
result.mean <-  mean(x)
print(result.mean)

# Find mean dropping NA values.
result.mean <-  mean(x,na.rm = TRUE)
print(result.mean)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] NA
[1] 8.22

Mediana

El valor más medio de una serie de datos se llama mediana. losmedian() La función se utiliza en R para calcular este valor.

Sintaxis

La sintaxis básica para calcular la mediana en R es:

median(x, na.rm = FALSE)

A continuación se muestra la descripción de los parámetros utilizados:

  • x es el vector de entrada.

  • na.rm se utiliza para eliminar los valores perdidos del vector de entrada.

Ejemplo

# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find the median.
median.result <- median(x)
print(median.result)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] 5.6

Modo

La moda es el valor que tiene el mayor número de ocurrencias en un conjunto de datos. A diferencia de la media y la mediana, la moda puede tener datos numéricos y de caracteres.

R no tiene una función incorporada estándar para calcular el modo. Entonces creamos una función de usuario para calcular el modo de un conjunto de datos en R. Esta función toma el vector como entrada y da el valor del modo como salida.

Ejemplo

# Create the function.
getmode <- function(v) {
   uniqv <- unique(v)
   uniqv[which.max(tabulate(match(v, uniqv)))]
}

# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)

# Calculate the mode using the user function.
result <- getmode(v)
print(result)

# Create the vector with characters.
charv <- c("o","it","the","it","it")

# Calculate the mode using the user function.
result <- getmode(charv)
print(result)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] 2
[1] "it"