R - Media, Mediana e Modo

L'analisi statistica in R viene eseguita utilizzando molte funzioni integrate. La maggior parte di queste funzioni fa parte del pacchetto base R. Queste funzioni accettano il vettore R come input insieme agli argomenti e danno il risultato.

Le funzioni di cui discuteremo in questo capitolo sono media, mediana e modo.

Significare

Viene calcolato prendendo la somma dei valori e dividendo per il numero di valori in una serie di dati.

La funzione mean() viene utilizzato per calcolare questo in R.

Sintassi

La sintassi di base per il calcolo della media in R è:

mean(x, trim = 0, na.rm = FALSE, ...)

Di seguito la descrizione dei parametri utilizzati:

  • x è il vettore di input.

  • trim viene utilizzato per eliminare alcune osservazioni da entrambe le estremità del vettore ordinato.

  • na.rm viene utilizzato per rimuovere i valori mancanti dal vettore di input.

Esempio

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <- mean(x)
print(result.mean)

Quando eseguiamo il codice sopra, produce il seguente risultato:

[1] 8.22

Applicazione dell'opzione Trim

Quando viene fornito il parametro trim, i valori nel vettore vengono ordinati e quindi i numeri richiesti di osservazioni vengono eliminati dal calcolo della media.

Quando trim = 0,3, 3 valori da ciascuna estremità verranno eliminati dai calcoli per trovare la media.

In questo caso il vettore ordinato è (−21, −5, 2, 3, 4.2, 7, 8, 12, 18, 54) ei valori rimossi dal vettore per il calcolo della media sono (−21, −5,2) da sinistra e (12,18,54) da destra.

# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find Mean.
result.mean <-  mean(x,trim = 0.3)
print(result.mean)

Quando eseguiamo il codice sopra, produce il seguente risultato:

[1] 5.55

Applicazione dell'opzione NA

Se ci sono valori mancanti, la funzione di media restituisce NA.

Per eliminare i valori mancanti dal calcolo, utilizzare na.rm = TRUE. il che significa rimuovere i valori NA.

# Create a vector. 
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)

# Find mean.
result.mean <-  mean(x)
print(result.mean)

# Find mean dropping NA values.
result.mean <-  mean(x,na.rm = TRUE)
print(result.mean)

Quando eseguiamo il codice sopra, produce il seguente risultato:

[1] NA
[1] 8.22

Mediano

Il valore medio più alto in una serie di dati è chiamato mediana. Ilmedian() viene utilizzata in R per calcolare questo valore.

Sintassi

La sintassi di base per il calcolo della mediana in R è:

median(x, na.rm = FALSE)

Di seguito la descrizione dei parametri utilizzati:

  • x è il vettore di input.

  • na.rm viene utilizzato per rimuovere i valori mancanti dal vettore di input.

Esempio

# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)

# Find the median.
median.result <- median(x)
print(median.result)

Quando eseguiamo il codice sopra, produce il seguente risultato:

[1] 5.6

Modalità

La modalità è il valore con il maggior numero di occorrenze in un insieme di dati. Media e mediana Unike, la modalità può avere sia dati numerici che caratteri.

R non ha una funzione incorporata standard per calcolare la modalità. Quindi creiamo una funzione utente per calcolare la modalità di un set di dati in R. Questa funzione prende il vettore come input e fornisce il valore della modalità come output.

Esempio

# Create the function.
getmode <- function(v) {
   uniqv <- unique(v)
   uniqv[which.max(tabulate(match(v, uniqv)))]
}

# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)

# Calculate the mode using the user function.
result <- getmode(v)
print(result)

# Create the vector with characters.
charv <- c("o","it","the","it","it")

# Calculate the mode using the user function.
result <- getmode(charv)
print(result)

Quando eseguiamo il codice sopra, produce il seguente risultato:

[1] 2
[1] "it"