Null 가설이 표준 오차에 영향을 줍니까?

Nov 25 2020

여기 아래 $H_0:P_1=P_2$ 표준 오류는 몇 가지 공통점이 있습니다 $P$합동 추정치에서 계산 된 값입니다. 왜$\sigma$다음 항목에서 비슷한 방식으로 계산되지 않은 값? null 아래에$H_0:\sigma_1=\sigma_2$ 표준 오차 공식에서 대체되지 않는 이유는 무엇입니까?

답변

1 ChristophHanck Nov 26 2020 at 18:27

간단히 말해서, 질문의 제목이 일부 독자에게 혼란스럽게 들릴 수 있다고 생각하지만, 약간 수정 된 질문에 대한 대답은 "예"일 수 있습니다.

"표준 오류의 유효한 추정치를 제공하기 위해 귀무 가설에 지정된 매개 변수 값을 사용할 수 있습니까?"

두 번째 스크린 샷 (가능한 경우이를 피하고 TeX에서 텍스트를 조판하여 사이트를 더 검색 가능하게 만들기)는 마지막 SE가 여전히 알 수없는 수량에 의존한다는 점에서 "불완전"합니다. $\sigma_1$$\sigma_2$.

그 후, $S.E.(s_1-s_2)$ 일부 추정기로 대체해야 할 것입니다. $\widehat{S.E.}(s_1-s_2)$테스트를 얻기 위해 통계를 , 호출$\hat{Z}$ (통계 학자들은 우리가 실제로 계산할 수있는 통계를 미지에 의존하지 않는 것으로 부른다는 점을 기억하십시오).

그 추정자가 일관된 경우 $S.E.(s_1-s_2)$우리는 Slutzky의 Lemma에 의해 , $$ \hat{Z}=\frac{s_1-s_2}{\widehat{S.E.}(s_1-s_2)}=\underbrace{\underbrace{\frac{s_1-s_2}{S.E.(s_1-s_2)}}_{=Z\to_dN(0,1)}\cdot\underbrace{\frac{S.E.(s_1-s_2)}{\widehat{S.E.}(s_1-s_2)}}_{\to_p1}}_{=Z\to_dN(0,1)} $$

이제 다음 두 가지를 수행 할 수 있습니다.

  1. 바꾸다 $\sigma_j^2$, $j=1,2$, 에 $S.E.(s_1-s_2)$$s_j^2$. 그것은 일관된 추정치를 가져올 것입니다$S.E.(s_1-s_2)$ null이 참이거나 아닐 때 둘 다.
  2. 공통 가치 추정 $s^2$ 전체 샘플에서 가져 와서 둘 다 $\sigma_j^2$, $j=1,2$, 에 $S.E.(s_1-s_2)$ ( "풀링 된"추정치).

2의 경우 null이 참인 경우 두 모집단이 동일한 표준 편차를 공유하기 때문에 공통 값을 추정하는 것이 정확하기 때문에 위 디스플레이의 두 번째 항의 위 결과가 여전히 유지되고 아무것도 변경되지 않습니다. 따라서 테스트 통계는 null이 참이면 큰 샘플에서 일반 랜덤 변수처럼 작동하므로 테스트 결정에 도달하기 위해 정상적인 임계 값을 사용할 수 있습니다.

이제 null이 거짓이면 테스트 통계에서 무엇을 "원"합니까? $\hat{Z}$? 가능한 한 자주 테스트의 임계 값 ( "고출력")보다 더 커지기를 원합니다.

이제 분자는 null이 거짓이면 충분한 데이터가 주어지면 다음과 같이 0이 아닌 값이 될 것입니다. $\sigma_1\neq\sigma_2$ 따라서 그렇게 될 것입니다 $s_1$$s_2$. 분모에서$\sigma_j$ 더 이상 합동 추정기에 의해 일관되게 추정되지 않습니다. $s^2$. 그럼에도 불구하고 그 추정치는 어떤 유한 한 값을 가질 것으로 예상 될 수 있습니다.$s^2\to \tilde{\sigma}^2$. 그러나 우리는$n_1$$n_2$, $\widehat{S.E.}(s_1-s_2)$ 샘플 크기가 커짐에 따라 매우 작아 지므로 $\hat{Z}$ 우리는 여전히 null을 올바르게 거부 할 수 있도록 커질 것입니다.

따라서 두 절차 모두 점근 적 근거로 정당화 될 수 있습니다. 유한 샘플에서 더 나은 것은 또 다른 문제입니다 (주로 시뮬레이션 연구를 통해 해결됨).

다음은 두 변형이 이론적 널 분포와 일치하고 $Z$ 시뮬레이션에서 실제 값을 알 때 설명을 위해 계산할 수있는 버전).

실제 값으로 장난으로 sigma1하고 sigma2널 (null)가 false 인 경우도 마찬가지로 테스트가 모든 즉, 힘이 표준 정규 다른 분포를 가지고 설명 할 수

암호:

Zhat <- function(x1, x2){
  n1 <- length(x1)
  n2 <- length(x2)
  s1 <- sd(x1)
  s2 <- sd(x2)
  s <- sd(c(x1,x2)) # pooled estimate
  Zhat <- (s1-s2)/sqrt(s1^2/(2*n1)+s2^2/(2*n2))
  Zhat.pooled <- (s1-s2)/sqrt(s^2*(1/(2*n1)+1/(2*n2)))
  Z <- (s1-s2)/sqrt(sigma1^2/(2*n1)+sigma2^2/(2*n2)) # as we know true values in this illustration, we may plug them in, too
  return(list(Zhat, Zhat.pooled, Z))
}

sigma1 <- 1
sigma2 <- 1
n1 <- 40
n2 <- 60

MC.function <- function(sigma1, sigma2, n1, n2){
  x1 <- rnorm(n1, sd=sigma1)
  x2 <- rnorm(n2, sd=sigma2)
  Zhat(x1, x2)
}
MC <- replicate(10000, MC.function(sigma1, sigma2, n1, n2))

plot(density(unlist(MC[1,])), lwd=2, col="blue", main="simulated null distributions", ylim=)
lines(density(unlist(MC[2,])), lwd=2, col="salmon")
lines(density(unlist(MC[3,])), lwd=2, col="green")
x <- seq(-4,4,by=0.1)
lines(x, dnorm(x), lwd=2, col="brown")

추신 : 기본적으로 동일한 아이디어가 다음 스레드에 대해 논의됩니다. Bernoulli 분포에 대한 T- 테스트-SE 계산을위한 샘플 또는 인구 데이터? Wald 검정에 사용할 분산 추정값은 무엇입니까?