OLS 회귀에서 오류에 대한 0 조건부 기대

Aug 19 2020

종속 변수가 있다고 가정합니다. $Y$ 및 독립 변수 $X$ 모집단에서 선형 모델을 추정하고 싶습니다. $$ Y = \beta_{0} + \beta_{1}X + \varepsilon $$ 최소 제곱 법을 사용하여 추정치를 얻습니다. $\hat{\beta_{0}}$$\hat{\beta_{1}}$, 그래서이 모집단의 표본에서 우리는 $i$ 샘플에서 $$ y_{i} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} + e_{i} $$ 어디 $e_{i}$ 관측치와 관련된 잔차입니다. $i$. 자, 여기서 하나의 필수 가정은 조건부 분포$e_{i}$ 주어진 $X$ 정상이고 $$ \mathbb{E}(e_{i}|X) = 0 $$ 나는 완전히 이해하지 못한다 $e_{i}$랜덤 변수에보고 될 수있는 소정$X$. 랜덤 변수는 정확히 무엇입니까$e_{i}$, 즉 어떤 다른 가치를 가질 수 있습니까? 주어진 추정치$\hat{\beta_{0}}$$\hat{\beta_{1}}$ 및 값 $X$, 그것은 나에게 보인다 $e_{i}$한정된 수의 고정 값을 취합니다 (1 일 수도 있음). 그래서 어떤 의미에서 랜덤 변수로 보입니까?

또는 "무작위성"이 $e_{i}$회귀 계수의 다른 추정치 와 관련된 오류 항을 고려하기 때문에 발생 합니까? 즉, 오류에 대한 조건부 기대치가 0이라는 것은$X = x$, 다음을 포함하는 모집단의 다른 샘플을 선택한 경우 $x$ 각 샘플에 대한 최소 제곱 선을 추정했습니다. 오류는 $x$ 평균적으로 0이어야합니까?

답변

1 markowitz Aug 19 2020 at 03:09

회귀 변수에 따라 정의 된 잔차는 단순히 회귀 변수가 주어 졌더라도이를 상수로 줄일 수 없기 때문에 랜덤 변수로 남아 있습니다. 즉,$x_i$ 추정 된 계수가 주어지면 예측 된 값을 얻을 수 있습니다. $y$ 그러나이 예측은 불확실성을 유지합니다.

그러나 잔차 값이 추정 된 계수에 연결된다는 것은 귀하의 권리입니다.

이제 작성한 조건이 $E[e_i|X]=0$잔차에 쓰여지기 때문에 잘못되었습니다. 나는 당신이 잔차와 오류의 의미를 융합하는 것이 두렵습니다. 이 문제는 널리 퍼져 있으며 매우 위험합니다.

표기법에 따라 조건은 $E[\epsilon_i|X]=0$그리고 우리가 진정한 모델 해석 만의 메이크업 감각 구조 방정식을 하고 있지 같은으로 인구 회귀 (자주 사용되는 선형 질문에서 모델, 너무 일반적이고 모호한 이름에 대해 얘기). 이런 오해는 학생들과 문학에서도 많은 문제를 낳았습니다.

이러한 게시물은 귀하와 다른 독자에게 도움이 될 수 있습니다.

내 생성의 실제 정의는 무엇입니까?

동 분산 성은 회귀 변수와 오류가 상관 관계가 없음을 의미합니까?

상관 관계 테스트를 이용한 내 생성 테스트

회귀의 모집단 모수

BigBendRegion Aug 19 2020 at 03:47

혼동 중 일부는 $e$$\epsilon$, 그리고 그것은 의견 및 기타 답변에서 적절하게 언급 된 것 같습니다. 그러나 OP에 의해 표현 된 추가적인 혼란은이 맥락에서 임의성 자체의 본질과 관련이 있으며$E(\epsilon | X)$. 다음은 이러한 문제를 명확히하는 답변입니다.

고전적인 예를 고려하십시오. $Y$ = 아들의 성인 키, $X$= 아버지의 성인 키. 가정$E(Y | X = x) = \beta_0 + \beta_1 x$사실이다. 이것은 데이터가 어떻게 나타나는지에 대한 모델이므로 데이터가 수집되는 장소 /시기 / 방법에 대한 개념적 프레임 워크가 필요합니다. 구체적으로 말하자면, 오늘날 세계에 살고있는 사람들의 "전형적인"표본에 대해 이야기하고 있다고 가정 해 보겠습니다.이 표본은이 인간 스펙트럼을 합리적으로 대표합니다.

"무작위성"에 대한 질문은 실제 데이터와 무관 한 것으로 가장 잘 이해 될 수 있습니다. 대신 개념적 데이터 수집 프레임 워크에 대한 "잠재적으로 관찰 가능한 데이터"라는 용어로 이해할 수 있습니다. 키가 180cm이지만 샘플링 프레임 워크 내에서 일반적으로 사용되는 특정 아버지를 고려하면 잠재적으로 관찰 가능한 아들의 키 분포가 있습니다 . 그래서$Y$ 표현에서 $Y | X = 180$ 이 단계에서는 잠재적으로 관찰 가능한 값의 확률 분포가있는 "무작위"로 설명 할 수 있습니다.

(세계의 "인구"는이 맥락에서 무관하다는 점에 유의하십시오. 대신 회귀 모델은 오늘날 세계의 사람들의 키를 그 자체로 간주하지만 이 특정 지점에서 존재할 수있는 가능한 키의 가능한 많은 실현 중 하나입니다 . "인구"프레임 워크가 이치에 맞지 않는 한 가지 이유는 인구 조건부 분포를 구성 할 인구 데이터가 없다는 것입니다. 9와 80.0000 .......... 1 센티미터? "..."를 충분히 오래 실행하면 "없음"이됩니다.)

지금, $\epsilon = Y - (\beta_0 + \beta_1 x)$, 잠재적으로 관찰 가능한 (무작위) $Y$ 잠재적으로 관찰 가능한 분포의 평균 $Y$ 주어진 $x$. 의 "무작위성"$\epsilon$ "무작위성"에서 상속 $Y$ (조건부 평균 $\beta_0 + \beta_1 x$, 마음으로는 불확실하지만이 맥락에서 과학적으로 고정되어 있습니다).

조건을 이해하려면 $E(\epsilon | X=x) = 0$, 다시 고려 $X=180$. 여기,$\epsilon$ 잠재적으로 관찰 가능한 편차 $Y$ 어떤 $X=180$, 잠재적으로 관찰 가능한 모든 평균에서 $Y$. 그런 모든 것의 평균$\epsilon$'s는 정확히 0입니다. $Y$의는 $\beta_0 + \beta_1 (180)$.

그건 그렇고, 가정 $E(\epsilon | X=x) = 0 $ 여기에서는 필요하지 않습니다. 더 직관적 인 가정의 수학적 결과입니다. $E(Y | X = x) = \beta_0 + \beta_1 x$, 이는 단순히 회귀 평균 함수가 올바르게 모델링되었음을 나타냅니다.