Dimensione del campione per il test di indipendenza chi-quadrato di Pearson
Sto cercando di fare un file $\chi^2$test di indipendenza tra due variabili. Il problema che ho è che sto lottando con la dimensione del campione per il test. Finisco sempre con alcune celle che hanno 0 campioni.
Ho a disposizione i dati sull'intera popolazione, ma non posso usarli per testare le ipotesi quindi ho provato con varie dimensioni con e senza sostituzione. Inoltre, la popolazione è piuttosto piccola - solo 162.
Con dimensioni del campione più piccole, la chisq()
funzione in R continuava a fornire messaggi di errore che la stima poteva essere errata.
> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect
Ora sono arrivato a una dimensione del campione del 100% della popolazione con sostituzione. L'errore è scomparso, ma sono preoccupato da allora:
a) Ho ancora 0 campioni in alcune celle :
var2_high var2_low var2_medium var2_very_high
var1_high 12 0 10 3
var1_low 10 20 9 1
var1_medium 5 23 19 0
var1_very_high 9 0 0 41
E b) Non sono sicuro che tale dimensione del campione sia accettabile .
Qualcuno può aiutarmi con queste domande?
Risposte
Viene visualizzato il messaggio sopra perché l'approssimazione del chi quadrato non è affidabile quando la dimensione del campione è piccola. Ti consiglio di utilizzare i dati originali e di eseguire un test esatto di Fisher. Di seguito viene fornito un esempio di quando potrebbe sorgere questo problema e di come possiamo affrontarlo utilizzando il test di cui sopra.
Supponiamo di avere i seguenti dati di esempio di seguito. Per inciso, il test esatto di Fisher è stato creato dall'esperimento del tè della donna .
Truth
Guess Milk Tea
Milk 3 1
Tea 1 3
Vogliamo testare l'ipotesi che le due variabili siano indipendenti. Utilizzando un test del chi quadrato otteniamo il seguente avviso:
Code:
TeaTasting <- matrix(c(3, 1, 1, 3),
nrow = 2,
dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))
chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect
Ciò non sorprende poiché la dimensione del campione è relativamente piccola. Inoltre, vediamo che i conteggi attesi sono tutti inferiori a 5.
chiSqTest$expected
Truth
Guess Milk Tea
Milk 2 2
Tea 2 2
In questo caso, possiamo usare un test esatto di Fisher per verificare la nostra ipotesi.
fisher.test(TeaTasting)
Dato che il nostro valore p è molto più grande di 0,05, possiamo concludere che non ci sono prove statistiche che suggeriscano che le due variabili siano indipendenti
Fisher's Exact Test for Count Data
data: TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309