R - Analisi della covarianza

Usiamo l'analisi di regressione per creare modelli che descrivono l'effetto della variazione nelle variabili predittive sulla variabile di risposta. A volte, se abbiamo una variabile categoriale con valori come Sì / No o Maschio / Femmina ecc. La semplice analisi di regressione fornisce più risultati per ogni valore della variabile categoriale. In tale scenario, possiamo studiare l'effetto della variabile categoriale utilizzandola insieme alla variabile predittore e confrontando le linee di regressione per ogni livello della variabile categoriale. Tale analisi è definita comeAnalysis of Covariance chiamato anche come ANCOVA.

Esempio

Considera il set di dati R incorporato mtcars. In esso osserviamo che il campo "sono" rappresenta il tipo di trasmissione (automatica o manuale). È una variabile categoriale con valori 0 e 1. Da essa può dipendere anche il valore di miglia per gallone (mpg) di un'auto oltre al valore della potenza del motore ("hp").

Studiamo l'effetto del valore di "am" sulla regressione tra "mpg" e "hp". È fatto usando ilaov() funzione seguita dal anova() funzione per confrontare le molteplici regressioni.

Dati in ingresso

Crea un data frame contenente i campi "mpg", "hp" e "am" dal data set mtcars. Qui prendiamo "mpg" come variabile di risposta, "hp" come variabile predittore e "am" come variabile categoriale.

input <- mtcars[,c("am","mpg","hp")]
print(head(input))

Quando eseguiamo il codice sopra, produce il seguente risultato:

am   mpg   hp
Mazda RX4          1    21.0  110
Mazda RX4 Wag      1    21.0  110
Datsun 710         1    22.8   93
Hornet 4 Drive     0    21.4  110
Hornet Sportabout  0    18.7  175
Valiant            0    18.1  105

ANCOVA Analisi

Creiamo un modello di regressione prendendo "hp" come variabile predittore e "mpg" come variabile di risposta tenendo conto dell'interazione tra "am" e "hp".

Modello con interazione tra variabile categoriale e variabile predittiva

# Get the dataset.
input <- mtcars

# Create the regression model.
result <- aov(mpg~hp*am,data = input)
print(summary(result))

Quando eseguiamo il codice sopra, produce il seguente risultato:

Df Sum Sq Mean Sq F value   Pr(>F)    
hp           1  678.4   678.4  77.391 1.50e-09 ***
am           1  202.2   202.2  23.072 4.75e-05 ***
hp:am        1    0.0     0.0   0.001    0.981    
Residuals   28  245.4     8.8                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Questo risultato mostra che sia la potenza del motore che il tipo di trasmissione hanno un effetto significativo sulle miglia per gallone poiché il valore p in entrambi i casi è inferiore a 0,05. Ma l'interazione tra queste due variabili non è significativa poiché il valore p è maggiore di 0,05.

Modello senza interazione tra variabile categoriale e variabile predittiva

# Get the dataset.
input <- mtcars

# Create the regression model.
result <- aov(mpg~hp+am,data = input)
print(summary(result))

Quando eseguiamo il codice sopra, produce il seguente risultato:

Df  Sum Sq  Mean Sq   F value   Pr(>F)    
hp           1  678.4   678.4   80.15 7.63e-10 ***
am           1  202.2   202.2   23.89 3.46e-05 ***
Residuals   29  245.4     8.5                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Questo risultato mostra che sia la potenza che il tipo di trasmissione hanno un effetto significativo sulle miglia per gallone poiché il valore p in entrambi i casi è inferiore a 0,05.

Confronto di due modelli

Ora possiamo confrontare i due modelli per concludere se l'interazione delle variabili è veramente non significativa. Per questo usiamo ilanova() funzione.

# Get the dataset.
input <- mtcars

# Create the regression models.
result1 <- aov(mpg~hp*am,data = input)
result2 <- aov(mpg~hp+am,data = input)

# Compare the two models.
print(anova(result1,result2))

Quando eseguiamo il codice sopra, produce il seguente risultato:

Model 1: mpg ~ hp * am
Model 2: mpg ~ hp + am
  Res.Df    RSS Df  Sum of Sq     F Pr(>F)
1     28 245.43                           
2     29 245.44 -1 -0.0052515 6e-04 0.9806

Poiché il valore p è maggiore di 0,05, concludiamo che l'interazione tra la potenza del motore e il tipo di trasmissione non è significativa. Quindi il chilometraggio per gallone dipenderà in modo simile dalla potenza del motore dell'auto sia in modalità di trasmissione automatica che manuale.