Нулевое условное ожидание ошибки в регрессии OLS

Aug 19 2020

Предположим, у нас есть зависимая переменная $Y$ и независимая переменная $X$ в популяции, и мы хотим оценить линейную модель $$ Y = \beta_{0} + \beta_{1}X + \varepsilon $$ Используя метод наименьших квадратов, получаем оценки $\hat{\beta_{0}}$ и $\hat{\beta_{1}}$, поэтому в выборке из этой совокупности для каждого $i$ в образце $$ y_{i} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} + e_{i} $$ где $e_{i}$ невязка, связанная с наблюдением $i$. Одно важное предположение состоит в том, что условное распределение$e_{i}$ учитывая $X$ это нормально, и $$ \mathbb{E}(e_{i}|X) = 0 $$ Я не совсем понимаю как $e_{i}$можно рассматривать как случайную величину данного ап$X$. Что такое случайная величина$e_{i}$, т.е. какие разные значения он может принимать? Данные оценки$\hat{\beta_{0}}$ и $\hat{\beta_{1}}$ и ценность $X$мне кажется, что $e_{i}$просто примите конечное число фиксированных значений (может быть даже 1); так в каком смысле это рассматривается как случайная величина?

Или же "случайность" в $e_{i}$происходит потому, что мы рассматриваем ошибки, связанные с разными оценками коэффициентов регрессии? Другими словами, означает ли нулевое условное ожидание ошибок, что при заданном$X = x$, если бы мы выбрали разные выборки популяции, содержащие $x$ и оценил линию наименьших квадратов для каждого из этих образцов, ошибка, связанная с $x$ должно быть в среднем ноль?

Ответы

1 markowitz Aug 19 2020 at 03:09

Остатки, определенные с помощью регрессоров, остаются случайными величинами просто потому, что даже если регрессоры заданы, их невозможно свести к константам. Другими словами, если у вас есть$x_i$ вы можете получить, учитывая оценочные коэффициенты, предсказанные значения $y$ но это предсказание сохраняет свою неопределенность.

Однако вы имеете право, что остаточные значения связаны с оценочными коэффициентами.

Обратите внимание, что написанное вами условие $E[e_i|X]=0$неправильно, потому что написано по остаткам. Боюсь, что вы смешиваете значение остатков и ошибок. Эта проблема широко распространена и очень опасна.

Следуя вашим обозначениям, условие должно быть $E[\epsilon_i|X]=0$и это имеет смысл только в том случае, если мы интерпретируем истинную модель как структурное уравнение, а не как нечто вроде популяционной регрессии (вы говорите о линейной модели в своем вопросе, часто используется слишком общее и неоднозначное название). Подобное недопонимание породило множество проблем среди студентов, а также в литературе.

Эти сообщения могут помочь вам и другим читателям:

Каково собственное определение эндогенности?

Подразумевает ли гомоскедастичность, что переменные регрессора и ошибки не коррелируют?

Тестирование эндогенности с использованием корреляционного теста

Параметры популяции регрессии

BigBendRegion Aug 19 2020 at 03:47

Некоторая путаница касается разницы между $e$ и $\epsilon$, и это, кажется, было адекватно рассмотрено в комментариях и других ответах. Но дополнительная путаница, выраженная ОП, касается самой природы случайности в этом контексте и связанного с ней вопроса о значении$E(\epsilon | X)$. Вот ответ, который проясняет эти вопросы.

Рассмотрим классический пример: $Y$ = рост взрослого сына, $X$= рост взрослого отца. Предположим$E(Y | X = x) = \beta_0 + \beta_1 x$правда. Поскольку это модель того, как могут появиться данные, нам нужна некоторая концептуальная основа для определения того, где, когда и как собираются данные. Предположим, для конкретности, что мы говорим о «типичной» выборке людей, живущих в современном мире, которая достаточно репрезентативна для этого человеческого спектра.

Вопрос о «случайности» лучше всего можно понять как нечто, не имеющее отношения к реальным данным; которые вместо этого можно понимать в терминах «потенциально наблюдаемых данных» для концептуальной структуры сбора данных. Для конкретного отца, рост которого составляет 180 см, но который в остальном является общим в рамках выборки, существует распределение потенциально наблюдаемых ростов сына. Таким образом$Y$ в выражении $Y | X = 180$ на данном этапе может быть описан как «случайный», имеющий некоторое распределение вероятностей потенциально наблюдаемых значений.

(Обратите внимание, что «население» мира не имеет значения в этом контексте - вместо этого регрессионная модель рассматривает рост людей в современном мире как самих себя, но как одну из многих возможных реализаций возможных высот, которые могли существовать в этой конкретной точке в Одна из причин, по которой структура "населения" не имеет смысла, заключается в том, что нет данных о численности населения, на основе которых можно было бы построить условное распределение населения: сколько отцов на планете имеют рост между 79,9999999 ........... 9 и 80.0000 .......... 1 сантиметр? Ответ - "нет", если вы позволите "..." работать достаточно долго.)

В настоящее время, $\epsilon = Y - (\beta_0 + \beta_1 x)$, что является различием между потенциально наблюдаемыми (случайными) $Y$ и среднее значение распределения таких потенциально наблюдаемых $Y$ для данного $x$. «Случайность» в$\epsilon$ наследуется от "случайности" в $Y$ (условное среднее $\beta_0 + \beta_1 x$, хотя и неуверенный в сознании, научно закреплен в этом контексте).

Чтобы понять состояние $E(\epsilon | X=x) = 0$подумай еще раз $X=180$. Вот,$\epsilon$ это отклонение потенциально наблюдаемого $Y$ для которого $X=180$, из среднего значения всех таких потенциально наблюдаемых $Y$. Среднее значение всех таких$\epsilon$'s равно 0 именно потому, что среднее всех таких $Y$это $\beta_0 + \beta_1 (180)$.

Кстати, предположение $E(\epsilon | X=x) = 0 $ здесь не требуется: это математическое следствие более интуитивного предположения $E(Y | X = x) = \beta_0 + \beta_1 x$, который просто утверждает, что функция среднего регрессионного значения смоделирована правильно.