R - Moyenne, médiane et mode
L'analyse statistique dans R est effectuée à l'aide de nombreuses fonctions intégrées. La plupart de ces fonctions font partie du package de base R. Ces fonctions prennent le vecteur R comme entrée avec les arguments et donnent le résultat.
Les fonctions dont nous discutons dans ce chapitre sont la moyenne, la médiane et le mode.
Signifier
Il est calculé en prenant la somme des valeurs et en divisant par le nombre de valeurs dans une série de données.
La fonction mean() est utilisé pour calculer cela dans R.
Syntaxe
La syntaxe de base pour calculer la moyenne dans R est -
mean(x, trim = 0, na.rm = FALSE, ...)
Voici la description des paramètres utilisés -
x est le vecteur d'entrée.
trim est utilisé pour supprimer certaines observations des deux extrémités du vecteur trié.
na.rm est utilisé pour supprimer les valeurs manquantes du vecteur d'entrée.
Exemple
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x)
print(result.mean)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] 8.22
Application de l'option de coupe
Lorsque le paramètre trim est fourni, les valeurs du vecteur sont triées, puis le nombre requis d'observations est supprimé du calcul de la moyenne.
Lorsque trim = 0,3, 3 valeurs de chaque extrémité seront supprimées des calculs pour trouver la moyenne.
Dans ce cas, le vecteur trié est (−21, −5, 2, 3, 4,2, 7, 8, 12, 18, 54) et les valeurs retirées du vecteur pour le calcul de la moyenne sont (−21, −5,2) de gauche et (12,18,54) de droite.
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x,trim = 0.3)
print(result.mean)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] 5.55
Application de l'option NA
S'il y a des valeurs manquantes, la fonction moyenne renvoie NA.
Pour supprimer les valeurs manquantes du calcul, utilisez na.rm = TRUE. ce qui signifie supprimer les valeurs NA.
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)
# Find mean.
result.mean <- mean(x)
print(result.mean)
# Find mean dropping NA values.
result.mean <- mean(x,na.rm = TRUE)
print(result.mean)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] NA
[1] 8.22
Médian
La valeur la plus médiane d'une série de données est appelée la médiane. lemedian() La fonction est utilisée dans R pour calculer cette valeur.
Syntaxe
La syntaxe de base pour calculer la médiane dans R est -
median(x, na.rm = FALSE)
Voici la description des paramètres utilisés -
x est le vecteur d'entrée.
na.rm est utilisé pour supprimer les valeurs manquantes du vecteur d'entrée.
Exemple
# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find the median.
median.result <- median(x)
print(median.result)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] 5.6
Mode
Le mode est la valeur qui a le plus grand nombre d'occurrences dans un ensemble de données. Contrairement à la moyenne et à la médiane, le mode peut avoir à la fois des données numériques et des caractères.
R n'a pas de fonction intégrée standard pour calculer le mode. Nous créons donc une fonction utilisateur pour calculer le mode d'un ensemble de données dans R. Cette fonction prend le vecteur en entrée et donne la valeur du mode en sortie.
Exemple
# Create the function.
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)
# Calculate the mode using the user function.
result <- getmode(v)
print(result)
# Create the vector with characters.
charv <- c("o","it","the","it","it")
# Calculate the mode using the user function.
result <- getmode(charv)
print(result)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] 2
[1] "it"