R - média, mediana e modo
A análise estatística em R é realizada usando muitas funções embutidas. A maioria dessas funções faz parte do pacote R base. Essas funções tomam o vetor R como uma entrada junto com os argumentos e fornecem o resultado.
As funções que estamos discutindo neste capítulo são média, mediana e modo.
Significar
É calculado pegando a soma dos valores e dividindo com o número de valores em uma série de dados.
A função mean() é usado para calcular isso em R.
Sintaxe
A sintaxe básica para calcular a média em R é -
mean(x, trim = 0, na.rm = FALSE, ...)
A seguir está a descrição dos parâmetros usados -
x é o vetor de entrada.
trim é usado para eliminar algumas observações de ambas as extremidades do vetor classificado.
na.rm é usado para remover os valores ausentes do vetor de entrada.
Exemplo
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x)
print(result.mean)
Quando executamos o código acima, ele produz o seguinte resultado -
[1] 8.22
Aplicando Opção de Corte
Quando o parâmetro trim é fornecido, os valores no vetor são classificados e, em seguida, os números necessários de observações são eliminados do cálculo da média.
Quando trim = 0,3, 3 valores de cada extremidade serão retirados dos cálculos para encontrar a média.
Neste caso, o vetor classificado é (−21, −5, 2, 3, 4,2, 7, 8, 12, 18, 54) e os valores removidos do vetor para calcular a média são (−21, −5,2) da esquerda e (12,18,54) da direita.
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x,trim = 0.3)
print(result.mean)
Quando executamos o código acima, ele produz o seguinte resultado -
[1] 5.55
Aplicando a Opção NA
Se houver valores ausentes, a função média retornará NA.
Para eliminar os valores ausentes do cálculo, use na.rm = TRUE. o que significa remover os valores NA.
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)
# Find mean.
result.mean <- mean(x)
print(result.mean)
# Find mean dropping NA values.
result.mean <- mean(x,na.rm = TRUE)
print(result.mean)
Quando executamos o código acima, ele produz o seguinte resultado -
[1] NA
[1] 8.22
Mediana
O valor mais intermediário em uma série de dados é chamado de mediana. omedian() função é usada em R para calcular este valor.
Sintaxe
A sintaxe básica para calcular a mediana em R é -
median(x, na.rm = FALSE)
A seguir está a descrição dos parâmetros usados -
x é o vetor de entrada.
na.rm é usado para remover os valores ausentes do vetor de entrada.
Exemplo
# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find the median.
median.result <- median(x)
print(median.result)
Quando executamos o código acima, ele produz o seguinte resultado -
[1] 5.6
Modo
O modo é o valor que possui o maior número de ocorrências em um conjunto de dados. Ao contrário da média e da mediana, o modo pode ter dados numéricos e de caracteres.
R não tem uma função embutida padrão para calcular o modo. Portanto, criamos uma função de usuário para calcular o modo de um conjunto de dados em R. Essa função recebe o vetor como entrada e fornece o valor do modo como saída.
Exemplo
# Create the function.
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)
# Calculate the mode using the user function.
result <- getmode(v)
print(result)
# Create the vector with characters.
charv <- c("o","it","the","it","it")
# Calculate the mode using the user function.
result <- getmode(charv)
print(result)
Quando executamos o código acima, ele produz o seguinte resultado -
[1] 2
[1] "it"