Por que os testes exatos são preferíveis ao qui-quadrado para amostras pequenas?

Aug 18 2020

Estou ciente de que testes como o teste exato de Fisher às vezes são preferíveis ao qui-quadrado se seus valores esperados forem baixos em uma tabela de contingência, ao tentar testar a homogeneidade de grupos (historicamente, as pessoas sugeriram 5, embora alguns pareçam pensar que isso é conservador) .

No entanto, não consigo encontrar uma explicação de por que o qui-quadrado não funciona bem para amostras pequenas. Portanto, tenho 2 perguntas:

  1. O que faz com que os valores esperados em uma tabela de contingência se tornem pequenos à medida que o tamanho da amostra diminui? (Estou assumindo aqui que os pequenos valores esperados são resultado do pequeno tamanho da amostra).
  2. Por que o teste qui-quadrado não deve ser usado para amostras pequenas? Já vi pessoas dizerem que não se aproxima adequadamente da distribuição qui-quadrada teórica, mas alguém pode explicar por que / como isso não acontece?

Respostas

12 Ben Aug 18 2020 at 07:24

Em um teste de hipótese clássico, você tem uma estatística de teste que ordena a evidência daquela que é mais conducente à hipótese nula para aquela que é mais condizente à hipótese alternativa. (Sem perda de generalidade, suponha que um valor mais alto dessa estatística seja mais propício para a hipótese alternativa.) O valor p do teste é a probabilidade de observar evidências pelo menos tão conducentes à hipótese alternativa quanto o que você realmente observou ( uma estatística de teste pelo menos tão grande quanto o valor observado) sob a suposição de que a hipótese nula é verdadeira. Isso é calculado a partir da distribuição nula da estatística de teste, que é sua distribuição sob a suposição de que a hipótese nula é verdadeira.

Agora, um "teste exato" é um teste que calcula o valor p exatamente - ou seja, ele calcula isso a partir da distribuição nula verdadeira da estatística de teste. Em muitos testes estatísticos, a distribuição nula verdadeira é complicada, mas pode ser aproximada por outra distribuição e converge para essa distribuição aproximada como$n \rightarrow \infty$. Em particular, os chamados "testes qui-quadrado" são testes de hipótese em que a distribuição nula verdadeira converge para uma distribuição qui-quadrado.

Portanto, em um "teste qui-quadrado" deste tipo, quando você calcula o valor p do teste usando a distribuição qui-quadrado, isso é apenas uma aproximação do valor p verdadeiro . O verdadeiro valor p do teste é fornecido pelo teste exato e você está aproximando esse valor usando a distribuição nula aproximada da estatística de teste. Quando$n$ é grande esta aproximação é muito boa, mas quando $n$for pequeno, a aproximação pode ser pobre. Por esta razão, os estatísticos desaconselham o uso de "testes qui-quadrado" (ou seja, usando a aproximação qui-quadrado para a distribuição nula verdadeira) quando$n$ é pequeno.


Testes qui-quadrado para independência em tabelas de contingência: agora examinarei suas perguntas específicas em relação aos testes qui-quadrado para testar independência em tabelas de contingência. Neste contexto, se tivermos uma tabela de contingência com contagens observadas$O_1,...,O_K$ somando a $n \equiv \sum O_i$ então a estatística de teste é a estatística de Pearson:

$$\chi^2 = \sum_{i=1}^K \frac{(O_i-E_i)^2}{E_i},$$

Onde $E_1,...,E_K$ são os valores de células esperados sob a hipótese nula.$^\dagger$ A primeira coisa a notar aqui é que as contagens observadas $O_1,...,O_K$são inteiros não negativos. Para qualquer$n<\infty$isso limita os valores possíveis da estatística de teste a um conjunto finito de valores possíveis, de modo que sua distribuição nula verdadeira será uma distribuição discreta nesse conjunto finito de valores. Observe que a distribuição qui-quadrada não pode ser a distribuição nula verdadeira porque é uma distribuição contínua sobre todos os números reais não negativos --- um conjunto infinito (incontável) de valores.

Como em outros "testes qui-quadrado", a distribuição nula da estatística de teste aqui é bem aproximada pela distribuição qui-quadrada quando $n$é grande. Você não está correto em dizer que isso é uma questão de falhar em "aproximar adequadamente a distribuição qui-quadrada teórica" ​​- pelo contrário, a distribuição qui-quadrada teórica é a aproximação , não a distribuição nula verdadeira. A aproximação qui-quadrada é boa, desde que nenhum dos valores$E_1,...,E_K$é pequeno. A razão pela qual esses valores esperados são pequenos para valores baixos de$n$ é que quando você tem um valor de contagem total baixo, você deve esperar que as contagens em pelo menos algumas células sejam baixas.


$^\dagger$Para a análise das tabelas de contingência, essas contagens de células esperadas são obtidas pelo condicionamento nos totais marginais sob a hipótese nula de independência. Não é necessário entrarmos em maiores detalhes sobre esses valores.