R - média, mediana e modo

A análise estatística em R é realizada usando muitas funções embutidas. A maioria dessas funções faz parte do pacote R base. Essas funções tomam o vetor R como uma entrada junto com os argumentos e fornecem o resultado.

As funções que estamos discutindo neste capítulo são média, mediana e modo.

Significar

É calculado pegando a soma dos valores e dividindo com o número de valores em uma série de dados.

A função mean() é usado para calcular isso em R.

Sintaxe

A sintaxe básica para calcular a média em R é -

mean(x, trim = 0, na.rm = FALSE, ...)

A seguir está a descrição dos parâmetros usados ​​-

  • x é o vetor de entrada.

  • trim é usado para eliminar algumas observações de ambas as extremidades do vetor classificado.

  • na.rm é usado para remover os valores ausentes do vetor de entrada.

Exemplo

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <- mean(x)
print(result.mean)

Quando executamos o código acima, ele produz o seguinte resultado -

[1] 8.22

Aplicando Opção de Corte

Quando o parâmetro trim é fornecido, os valores no vetor são classificados e, em seguida, os números necessários de observações são eliminados do cálculo da média.

Quando trim = 0,3, 3 valores de cada extremidade serão retirados dos cálculos para encontrar a média.

Neste caso, o vetor classificado é (−21, −5, 2, 3, 4,2, 7, 8, 12, 18, 54) e os valores removidos do vetor para calcular a média são (−21, −5,2) da esquerda e (12,18,54) da direita.

# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <-  mean(x,trim = 0.3)
print(result.mean)

Quando executamos o código acima, ele produz o seguinte resultado -

[1] 5.55

Aplicando a Opção NA

Se houver valores ausentes, a função média retornará NA.

Para eliminar os valores ausentes do cálculo, use na.rm = TRUE. o que significa remover os valores NA.

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)

# Find mean.
result.mean <-  mean(x)
print(result.mean)

# Find mean dropping NA values.
result.mean <-  mean(x,na.rm = TRUE)
print(result.mean)

Quando executamos o código acima, ele produz o seguinte resultado -

[1] NA
[1] 8.22

Mediana

O valor mais intermediário em uma série de dados é chamado de mediana. omedian() função é usada em R para calcular este valor.

Sintaxe

A sintaxe básica para calcular a mediana em R é -

median(x, na.rm = FALSE)

A seguir está a descrição dos parâmetros usados ​​-

  • x é o vetor de entrada.

  • na.rm é usado para remover os valores ausentes do vetor de entrada.

Exemplo

# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find the median.
median.result <- median(x)
print(median.result)

Quando executamos o código acima, ele produz o seguinte resultado -

[1] 5.6

Modo

O modo é o valor que possui o maior número de ocorrências em um conjunto de dados. Ao contrário da média e da mediana, o modo pode ter dados numéricos e de caracteres.

R não tem uma função embutida padrão para calcular o modo. Portanto, criamos uma função de usuário para calcular o modo de um conjunto de dados em R. Essa função recebe o vetor como entrada e fornece o valor do modo como saída.

Exemplo

# Create the function.
getmode <- function(v) {
   uniqv <- unique(v)
   uniqv[which.max(tabulate(match(v, uniqv)))]
}

# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)

# Calculate the mode using the user function.
result <- getmode(v)
print(result)

# Create the vector with characters.
charv <- c("o","it","the","it","it")

# Calculate the mode using the user function.
result <- getmode(charv)
print(result)

Quando executamos o código acima, ele produz o seguinte resultado -

[1] 2
[1] "it"