È appropriato utilizzare il coefficiente di correlazione di Pearson quando i dati hanno osservazioni ripetute per unità?
Obbiettivo
Voglio trovare la forza della relazione (correlazione) tra due variabili misurate per 40 conducenti.
Dati
Il mio set di dati ha 2 variabili tau_inv = a sensory quantity
e ED_bpf = brake pedal force
. Questi vengono misurati ripetutamente per conducente per 40 conducenti. participant
è incluso anche il nome:
> dput(df)
structure(list(participant = structure(c(33L, 33L, 33L, 17L,
17L, 10L, 4L, 4L, 30L, 29L, 39L, 25L, 37L, 37L, 13L, 13L, 11L,
11L, 11L, 19L, 32L, 6L, 26L, 26L, 27L, 27L, 21L, 21L, 9L, 9L,
18L, 7L, 7L, 38L, 14L, 14L, 35L, 23L, 40L, 40L, 31L, 28L, 16L,
16L, 34L, 34L, 3L, 3L, 12L, 36L, 36L, 15L, 1L, 1L, 1L, 8L, 8L,
2L, 2L, 2L, 24L, 20L, 20L, 5L, 22L), .Label = c("driver: 01",
"driver: 02", "driver: 03", "driver: 04", "driver: 05", "driver: 06",
"driver: 07", "driver: 08", "driver: 09", "driver: 10", "driver: 11",
"driver: 12", "driver: 13", "driver: 14", "driver: 15", "driver: 16",
"driver: 17", "driver: 18", "driver: 19", "driver: 20", "driver: 21",
"driver: 22", "driver: 23", "driver: 24", "driver: 25", "driver: 26",
"driver: 27", "driver: 28", "driver: 29", "driver: 30", "driver: 31",
"driver: 32", "driver: 33", "driver: 34", "driver: 35", "driver: 36",
"driver: 37", "driver: 38", "driver: 39", "driver: 40"), class = "factor"),
tau_inv = c(0.08, 0.11, 0.16, 0.1, 0.17, 0.11, 0.12, 0.19,
0.19, 0.13, 0.09, 0.17, 0.13, 0.14, 0.08, 0.11, 0.08, 0.16,
0.22, 0.19, 0.16, 0.21, 0.13, 0.24, 0.11, 0.11, 0.09, 0.14,
0.15, 0.17, 0.13, 0.14, 0.19, 0.11, 0.17, 0.24, 0.15, 0.19,
0.07, 0.13, 0.25, 0.14, 0.13, 0.22, 0.11, 0.2, 0.16, 0.21,
0.12, 0.13, 0.18, 0.13, 0.05, 0.09, 0.14, 0.16, 0.2, 0.07,
0.14, 0.2, 0.23, 0.12, 0.16, 0.16, 0.15), ED_bpf = c(3.8,
3, 5.5, 1, 5.1, 8.8, 4.1, 12.6, 12.5, 10.8, 5.4, 8, 5.4,
6.6, 3.7, 4.8, 4.2, 3.9, 5.9, 6.8, 11.2, 9.9, 7.2, 8.5, 5.2,
9, 5, 5.5, 5.4, 11, 6.9, 5, 9.2, 7.2, 6.1, 10.6, 9.5, 8.8,
3.3, 8.8, 10, 7.5, 3.4, 7.1, 4, 5, 5.3, 7.9, 10.8, 7, 5.5,
7.8, 4.1, 3.4, 7.8, 5.1, 7.6, 6.4, 3.6, 8.7, 11.4, 5.6, 7,
13.3, 2.4)), row.names = c(NA, -65L), class = c("tbl_df",
"tbl", "data.frame"))
Cosa ho fatto
Ho stimato il coefficiente di correlazione di Pearson come mostrato nel grafico seguente:
library(ggplot2)
library(ggpubr)
ggplot(data = df,
aes(x = tau_inv,
y = ED_bpf)) +
geom_point(alpha = 0.5) +
stat_smooth(method = "lm", se =F) +
stat_cor(method = "pearson", label.x = 0.0025, label.y = 0)

Domanda
Sono preoccupato che, poiché ci sono più punti dati dello stesso driver (vedi la participant
colonna), il coefficiente di correlazione di Pearson potrebbe non essere il metodo migliore per trovare la forza della relazione. La mia preoccupazione è dovuta al motivo per cui se dovessi adattare un modello di regressione qui, è meglio utilizzare il modello lineare a effetti misti rispetto al semplice modello di regressione lineare a causa delle osservazioni ripetute.
Quindi, la mia domanda è: va bene per me usare il coefficiente di correlazione di Pearson mentre lo sto usando qui? O dovrei usare un metodo diverso?
Risposte
È una tua decisione se essere soddisfatto o meno del metodo, in base alla tua conoscenza del dominio.
In base alla descrizione del tuo "obiettivo", ecco cosa farei se fossi in te: dato che sto cercando la forza della relazione tra queste 2 variabili, sto benissimo usando il coefficiente di correlazione. Considero ogni coppia di dati come un esperimento separato. Se alcuni dei conducenti hanno "condotto" più di un solo esperimento per me, va benissimo, quegli esperimenti sono ancora preziosi.
Tuttavia, se volessi prendere in considerazione chi è il vero guidatore, questa è una storia diversa. Ad esempio, se volessi indagare quale guidatore ha reagito più velocemente (ad esempio se fosse ubriaco o meno durante la guida, nel caso in cui fosse anche umano), potresti confrontare le misurazioni e vedere chi sta reagendo troppo lentamente anche con un forte input sensoriale.
Se stai solo calcolando la metrica statistica della correlazione, quella misura statistica è la stessa indipendentemente da come vengono generati i dati. Tuttavia, possono esserci problemi con ulteriori interpretazioni di quella metrica. Ad esempio, vedo che nel grafico è incluso un valore p di 0,000009. Il valore p dipende sia dal coefficiente di correlazione che dal numero di osservazioni e presuppone che tali osservazioni siano indipendenti. Poiché non sono indipendenti, il valore p non è affidabile. Una questione correlata è il paradosso di Simpson.
Un esempio di come l'uso di una correlazione semplice porterebbe a una conclusione troppo forte: supponi di guardare la correlazione tra esercizio fisico e dieta e di guardare solo due persone (ad esempio, Alice e Bob). Normalmente, calcolando il valore p per$n=2$è inutile; avrai sempre$r=1$, quindi un $r$ di $1$non è significativo. Se guardi queste due persone per più di mille giorni e registra questo come$n = 2000$, sovrastimerai il significato. Qualsiasi differenza tra Alice e Bob sembrerà una correlazione tra esercizio fisico e dieta, quando in realtà è solo una differenza tra Alice e Bob.
Se Alice fa molto esercizio fisico e non mangia molto, e Bob mangia molto e non si esercita molto, allora sembrerà che ci sia una correlazione negativa tra esercizio e dieta. Più forte è la differenza tra Alice e Bob, rispetto alle differenze all'interno dei numeri individuali di ogni persona, più forte apparirà la correlazione. Ci sarà una dipendenza tra i punti dati in quanto se un punto dati ha un elevato esercizio, è probabilmente uno dei punti dati di Alice, e quindi probabilmente ha una dieta bassa.