R - Mittelwert, Median und Modus
Die statistische Analyse in R wird unter Verwendung vieler eingebauter Funktionen durchgeführt. Die meisten dieser Funktionen sind Teil des R-Basispakets. Diese Funktionen nehmen den R-Vektor als Eingabe zusammen mit den Argumenten und geben das Ergebnis.
Die Funktionen, die wir in diesem Kapitel behandeln, sind Mittelwert, Median und Modus.
Bedeuten
Sie wird berechnet, indem die Summe der Werte genommen und durch die Anzahl der Werte in einer Datenreihe dividiert wird.
Die Funktion mean() wird verwendet, um dies in R zu berechnen.
Syntax
Die grundlegende Syntax zur Berechnung des Mittelwerts in R lautet -
mean(x, trim = 0, na.rm = FALSE, ...)
Es folgt die Beschreibung der verwendeten Parameter -
x ist der Eingabevektor.
trim wird verwendet, um einige Beobachtungen von beiden Enden des sortierten Vektors zu löschen.
na.rm wird verwendet, um die fehlenden Werte aus dem Eingabevektor zu entfernen.
Beispiel
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x)
print(result.mean)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] 8.22
Trimmoption anwenden
Wenn der Trimmparameter angegeben wird, werden die Werte im Vektor sortiert und die erforderliche Anzahl von Beobachtungen wird aus der Berechnung des Mittelwerts entfernt.
Wenn trim = 0,3 ist, werden 3 Werte von jedem Ende aus den Berechnungen entfernt, um den Mittelwert zu ermitteln.
In diesem Fall ist der sortierte Vektor (–21, –5, 2, 3, 4,2, 7, 8, 12, 18, 54) und die aus dem Vektor zur Berechnung des Mittelwerts entfernten Werte sind (–21, –5,2). von links und (12,18,54) von rechts.
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x,trim = 0.3)
print(result.mean)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] 5.55
NA-Option anwenden
Wenn Werte fehlen, gibt die Mittelwertfunktion NA zurück.
Um die fehlenden Werte aus der Berechnung zu entfernen, verwenden Sie na.rm = TRUE. was bedeutet, die NA-Werte zu entfernen.
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)
# Find mean.
result.mean <- mean(x)
print(result.mean)
# Find mean dropping NA values.
result.mean <- mean(x,na.rm = TRUE)
print(result.mean)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] NA
[1] 8.22
Median
Der mittlere Wert in einer Datenreihe wird als Median bezeichnet. Dasmedian() Die Funktion wird in R verwendet, um diesen Wert zu berechnen.
Syntax
Die grundlegende Syntax zur Berechnung des Medians in R lautet -
median(x, na.rm = FALSE)
Es folgt die Beschreibung der verwendeten Parameter -
x ist der Eingabevektor.
na.rm wird verwendet, um die fehlenden Werte aus dem Eingabevektor zu entfernen.
Beispiel
# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find the median.
median.result <- median(x)
print(median.result)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] 5.6
Modus
Der Modus ist der Wert mit der höchsten Anzahl von Vorkommen in einem Datensatz. Im Gegensatz zu Mittelwert und Median kann der Modus sowohl numerische als auch Zeichendaten enthalten.
R verfügt nicht über eine integrierte Standardfunktion zur Berechnung des Modus. Wir erstellen also eine Benutzerfunktion, um den Modus eines Datensatzes in R zu berechnen. Diese Funktion verwendet den Vektor als Eingabe und gibt den Moduswert als Ausgabe an.
Beispiel
# Create the function.
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)
# Calculate the mode using the user function.
result <- getmode(v)
print(result)
# Create the vector with characters.
charv <- c("o","it","the","it","it")
# Calculate the mode using the user function.
result <- getmode(charv)
print(result)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] 2
[1] "it"