Dimensione del campione per il test di indipendenza chi-quadrato di Pearson

Aug 17 2020

Sto cercando di fare un file $\chi^2$test di indipendenza tra due variabili. Il problema che ho è che sto lottando con la dimensione del campione per il test. Finisco sempre con alcune celle che hanno 0 campioni.

Ho a disposizione i dati sull'intera popolazione, ma non posso usarli per testare le ipotesi quindi ho provato con varie dimensioni con e senza sostituzione. Inoltre, la popolazione è piuttosto piccola - solo 162.

Con dimensioni del campione più piccole, la chisq()funzione in R continuava a fornire messaggi di errore che la stima poteva essere errata.

> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect

Ora sono arrivato a una dimensione del campione del 100% della popolazione con sostituzione. L'errore è scomparso, ma sono preoccupato da allora:

a) Ho ancora 0 campioni in alcune celle :

                       var2_high    var2_low    var2_medium    var2_very_high
  var1_high                12           0             10                 3
  var1_low                 10          20              9                 1
  var1_medium               5          23             19                 0
  var1_very_high            9           0              0                41

E b) Non sono sicuro che tale dimensione del campione sia accettabile .

Qualcuno può aiutarmi con queste domande?

Risposte

1 nwaldo Aug 18 2020 at 05:08

Viene visualizzato il messaggio sopra perché l'approssimazione del chi quadrato non è affidabile quando la dimensione del campione è piccola. Ti consiglio di utilizzare i dati originali e di eseguire un test esatto di Fisher. Di seguito viene fornito un esempio di quando potrebbe sorgere questo problema e di come possiamo affrontarlo utilizzando il test di cui sopra.

Supponiamo di avere i seguenti dati di esempio di seguito. Per inciso, il test esatto di Fisher è stato creato dall'esperimento del tè della donna .

 Truth
Guess  Milk Tea
  Milk    3   1
  Tea     1   3

Vogliamo testare l'ipotesi che le due variabili siano indipendenti. Utilizzando un test del chi quadrato otteniamo il seguente avviso:

Code:
TeaTasting <- matrix(c(3, 1, 1, 3), 
                     nrow = 2, 
                     dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))

chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect

Ciò non sorprende poiché la dimensione del campione è relativamente piccola. Inoltre, vediamo che i conteggi attesi sono tutti inferiori a 5.

chiSqTest$expected
      Truth
Guess  Milk Tea
  Milk    2   2
  Tea     2   2

In questo caso, possiamo usare un test esatto di Fisher per verificare la nostra ipotesi.

fisher.test(TeaTasting)

Dato che il nostro valore p è molto più grande di 0,05, possiamo concludere che non ci sono prove statistiche che suggeriscano che le due variabili siano indipendenti

Fisher's Exact Test for Count Data

data:  TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.2117329 621.9337505
sample estimates:
odds ratio 
  6.408309