A hipótese nula afeta o erro padrão?

Aqui em baixo $H_0:P_1=P_2$ o erro padrão é comum $P$valor que é calculado a partir de uma estimativa conjunta. Porque é o$\sigma$valor não calculado de forma semelhante no próximo? Lá sob nulo$H_0:\sigma_1=\sigma_2$ por que isso não é substituído na fórmula de erro padrão?

Respostas
Resumindo: acredito que o título da sua pergunta possa parecer confuso para alguns leitores, mas a resposta, no entanto, pode ser "sim", para uma pergunta possivelmente ligeiramente modificada:
“É possível usar os valores dos parâmetros especificados na hipótese nula para fornecer uma estimativa válida de um erro padrão?”.
A segunda captura de tela (se possível, tente evitá-los e compor o texto em TeX para tornar o site mais pesquisável) ainda está "incompleta" porque o último SE ainda depende de quantidades desconhecidas, viz. $\sigma_1$ e $\sigma_2$.
Conseqüentemente, $S.E.(s_1-s_2)$ terá que ser substituído por algum estimador disso, chame-o $\widehat{S.E.}(s_1-s_2)$, para obter uma estatística de teste , chame-a$\hat{Z}$ (lembre-se de que os estatísticos chamam uma estatística de algo que podemos realmente computar, que não depende de incógnitas).
Se esse estimador é consistente para $S.E.(s_1-s_2)$obtemos, pelo Lema de Slutzky , $$ \hat{Z}=\frac{s_1-s_2}{\widehat{S.E.}(s_1-s_2)}=\underbrace{\underbrace{\frac{s_1-s_2}{S.E.(s_1-s_2)}}_{=Z\to_dN(0,1)}\cdot\underbrace{\frac{S.E.(s_1-s_2)}{\widehat{S.E.}(s_1-s_2)}}_{\to_p1}}_{=Z\to_dN(0,1)} $$
Agora, você pode fazer duas coisas:
- Substituir $\sigma_j^2$, $j=1,2$, no $S.E.(s_1-s_2)$ com $s_j^2$. Isso resultará em um estimador consistente de$S.E.(s_1-s_2)$ ambos quando o nulo é verdadeiro ou não.
- Estime um valor comum $s^2$ da amostra completa e conecte-o para ambos $\sigma_j^2$, $j=1,2$, no $S.E.(s_1-s_2)$ (uma estimativa "agrupada").
Para 2., se o nulo for verdadeiro, o resultado acima no segundo termo da exibição acima ainda é válido e nada muda, pois estimar um valor comum estava correto, pois ambas as populações compartilham o mesmo desvio padrão. Conseqüentemente, a estatística de teste ainda se comportará como uma variável aleatória normal em grandes amostras se o nulo for verdadeiro, de modo que possamos empregar os valores críticos normais para chegar a uma decisão de teste.
Agora, se o nulo for falso, o que "queremos" de nossa estatística de teste $\hat{Z}$? Queremos que seja maior do que os valores críticos do teste tão frequentemente quanto possível ("alta potência").
Agora, o numerador, se o nulo for falso, certamente se tornará, com dados suficientes, diferente de zero como $\sigma_1\neq\sigma_2$ e portanto assim será $s_1$ e $s_2$. No denominador, o$\sigma_j$ não será mais estimado de forma consistente pelo estimador agrupado $s^2$. Ainda assim, pode-se esperar que esse estimador tenda a algum valor finito, digamos,$s^2\to \tilde{\sigma}^2$. Uma vez que, no entanto, dividimos por$n_1$ e $n_2$, $\widehat{S.E.}(s_1-s_2)$ se tornará muito pequeno conforme o tamanho da amostra cresce e, portanto, $\hat{Z}$ ficará grande, de modo que ainda rejeitaremos corretamente o nulo.
Conseqüentemente, qualquer procedimento pode ser justificado em bases assintóticas. O que é melhor em amostras finitas é outra questão (muitas vezes abordada por meio de estudos de simulação).
Aqui está uma ilustração (código abaixo) de que ambas as variantes correspondem à distribuição nula teórica (e estão perto do $Z$ versão que podemos computar para ilustração quando sabemos os verdadeiros valores em uma simulação) sob o nulo.
Ao brincar com os verdadeiros valores sigma1
e sigma2
você pode igualmente ilustrar que os testes também têm poder, ou seja, têm distribuições diferentes do que o padrão normal se o nulo é falsa

Código:
Zhat <- function(x1, x2){
n1 <- length(x1)
n2 <- length(x2)
s1 <- sd(x1)
s2 <- sd(x2)
s <- sd(c(x1,x2)) # pooled estimate
Zhat <- (s1-s2)/sqrt(s1^2/(2*n1)+s2^2/(2*n2))
Zhat.pooled <- (s1-s2)/sqrt(s^2*(1/(2*n1)+1/(2*n2)))
Z <- (s1-s2)/sqrt(sigma1^2/(2*n1)+sigma2^2/(2*n2)) # as we know true values in this illustration, we may plug them in, too
return(list(Zhat, Zhat.pooled, Z))
}
sigma1 <- 1
sigma2 <- 1
n1 <- 40
n2 <- 60
MC.function <- function(sigma1, sigma2, n1, n2){
x1 <- rnorm(n1, sd=sigma1)
x2 <- rnorm(n2, sd=sigma2)
Zhat(x1, x2)
}
MC <- replicate(10000, MC.function(sigma1, sigma2, n1, n2))
plot(density(unlist(MC[1,])), lwd=2, col="blue", main="simulated null distributions", ylim=)
lines(density(unlist(MC[2,])), lwd=2, col="salmon")
lines(density(unlist(MC[3,])), lwd=2, col="green")
x <- seq(-4,4,by=0.1)
lines(x, dnorm(x), lwd=2, col="brown")
PS: Basicamente, a mesma ideia é discutida nestes tópicos: Teste T para distribuição de Bernoulli - dados de amostra ou população para cálculo SE? Qual estimativa de variância usar para um teste de Wald?