Diferença de duas amostras em proporções: Por que estimar o erro padrão não é um problema de normalidade?

Aug 16 2020

Em primeiro lugar, essa parece uma pergunta muito comum, mas prometo que pesquisei por um longo tempo em outras postagens semelhantes e não encontrei uma solução que pareça fornecer uma resposta. ( Isso e isso chegam muito perto, mas eu acho que também não responde isso!).

Explicarei muito bem minha confusão, comparando-a primeiro com o caso da proporção de uma amostra. Poderíamos testar se a proporção verdadeira$p$ é igual a algum valor $c$.

$H_0: p = c.$

$H_A: p \neq c.$

Para $np$ e $n(1-p)$ suficientemente grande, a aproximação binomial ao normal nos dá $\hat{p} \sim N(p, p(1-p)/n)$. Assim, quando calculamos a estatística de teste,$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$Sob a hipótese nula, isso é distribuído como normal padrão. Fundamentalmente, estamos não estimar o padrão de erro-lo é determinado pela hipótese nula!

Agora, em vez disso, consideramos o caso de duas amostras, em que queremos executar um teste de hipótese sobre a diferença de proporções.

$H_0: p_1 - p_2 = 0.$

$H_A: p_1 - p_2 \neq 0.$

A mesma aproximação binomial nos dá $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. Então se$\tilde{p}$ é a proporção combinada ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$), Eu sei que nossa estatística de teste é dada por $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$

Esta é a parte crucial que não sigo. No caso de uma amostra, não estimamos o erro padrão - ele foi determinado pelo nulo. Portanto, citar o normal padrão faz sentido. No caso de duas amostras, temos que estimar o erro padrão, usando nossa proporção combinada! Então, basicamente, não deveríamos ter que fazer algum tipo de ajuste para refletir isso? (Ou seja, como o que fazemos com um teste t).

Então, como posso explicar isso? Por que ainda podemos citar o normal padrão, embora estejamos usando uma estimativa baseada em dados para seu erro padrão?

Embora a pergunta seja análoga à de um teste t, eu entendo por que não podemos simplesmente usar um teste t (não temos as outras suposições atendidas). Minha melhor tentativa de resposta até agora é simplesmente:

“Sim, estamos estimando o erro padrão, mas essa aproximação é apenas engolida por nossa aproximação normal original do binômio, porque isso só funciona em altos graus de liberdade de qualquer maneira"?

Existe uma explicação melhor para isso? Parece intuitivo que algum ajuste seja necessário, mas não o fazemos.

Para uma breve explicação de por que os dois links que citei pareciam não cobrir isso ...

A resposta de @glen_b é muito boa e explica claramente por que os pressupostos teóricos necessários para um teste t não seriam válidos aqui. No entanto, não vejo como explicar exatamente esse problema. Ele menciona um e dois testes de proporção de amostra, e minha confusão é que eles não se sentem iguais nesta frente. Mas isso ajuda a informar meu melhor palpite acima, que para tamanhos de amostra grandes o suficiente para nossa aproximação de normalidade, estimar o erro padrão é basicamente irrelevante.

Da mesma forma, @ whuber mostra muito claramente (com gráficos) como a distribuição student-t não se aproxima melhor da nossa estatística de teste (para tamanho de amostra moderado) do que o normal padrão simples.

Então, eu entendo porque a distribuição student-t não é a melhor escolha aqui. Mas minha confusão persistente é simplesmente: mesmo que o t student não seja a solução certa, qual é a melhor maneira de descrever por que não fornecemos nenhum tipo de ajuste aqui? Eu vejo uma amostra e duas amostras de caso descritas de forma equivalente - "é normal porque a variância é determinada pela média". Mas os casos parecem bem diferentes - em um, estimamos o erro padrão, no outro, não. A resposta é simplesmente "uma vez que já estamos aproximando a diferença de proporção binomial com um normal, a estimativa do erro padrão é trivial em relação a essa aproximação, então podemos ignorá-lo"?

Respostas

3 Glen_b Aug 16 2020 at 01:14

Como na resposta para a qual você cria um link, você usa novamente o teorema de Slutsky , especificamente a terceira forma (proporção) no link da Wikipedia.

Se você escrever $Z_n$ Como $X_n/Y_n$ Onde

$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$

$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$

Onde $p_0$ é a proporção da população comum sob o nulo e $n_1$ e $n_2$ aumentar proporcionalmente * (ou, alternativamente, permitindo $n$ seja o menor de $n_1$ e $n_2$ ao invés) então o teorema deve ser aplicado, e $Y_n$ converge para $1$, assim como $n\to\infty$ a sequência $Z_n$ converge para a mesma distribuição $X_n$ faz (ou seja, para a distribuição normal padrão).

* esta parte poderia ser formalizada, em uma série de maneiras possíveis semelhantes, relacionando uma sequência de $n_1$ e $n_2$ valores para $n$ enquanto os mantém em proporção