Сохранение постоянных других предикторов с помощью моделирования в R
Представьте себе, что salary
некоторые профессора предсказывают, исходя из их многолетнего опыта ( time
), контролируя / сохраняя постоянное количество публикаций ( pubs
).
Вопрос: Правильно ли следующее относительно значения поддержания постоянного их количества
pubs
и демонстрируется ли оно с помощью моделированияR
?
Представьте, что у нас было бесчисленное количество профессоров, а затем возьмите их выборку с точно таким же количеством pubs
(например,$1$).
- Подгоните регрессионную модель только в
time
качестве предиктора, получите коэффициент регрессииtime
. - Возьмем другой образец с
pubs
из$2$, Снова установите регрессионную модель, получите коэффициент регрессииtime
. - Продолжайте переходить
pubs
на$3, 4,…$и каждый раз получить коэффициент регрессииtime
.
В конце концов, в среднем наших регрессий coefs из time
будет частичный коэффициент регрессии , который контролируемый для pubs
преподавателей при прогнозировании salary
из time
.
ps Контроль предсказателя похож на его интеграцию ?
Ответы
Да, если модель указана правильно .
Предположим, ваши данные генерируются $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ т.е. $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Предположим $x_1$ является предиктором интереса и $x_2$это контроль. Условие на контроле$x_2$ дает $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
Эмпирический аналог $(*)$ регресс, который вы предлагаете --- регресс $y$ на $x_1$ (с перехватом) для данного значения $x_2$. Обратите внимание, что для любого заданного значения$x_2$, эта регрессия зависит от $x_2$ уже является объективной оценкой $\beta_1$.
Усреднение по $x_2$делает оценку менее шумной. Предположение$E[\epsilon|x_1, x_2] = 0$ подразумевает, что образцы не коррелированы по $x_2$. Поэтому усреднение по$x_2$ дает меньшую стандартную ошибку.
Комментарий
Утверждение "регресс, обусловленный $x_2$ объективная оценка $\beta_1$"зависит от правильной спецификации --- правильная функциональная форма / отсутствие пропущенных переменных / и т. д. В реальном наборе данных вам нужно будет верить / утверждать, что истинная функциональная форма линейна / элементы управления не пропущены / и т. д.
Если истинная функция регрессии популяции не является линейной, а $E[\epsilon|x_1, x_2] = 0$ все еще сохраняется, я бы ожидал усреднить коэффициент OLS для $x_1$ из регрессии при условии $x_2$, назови это $\hat{\beta}_1|x_2$, над $x_2$ быть близким к коэффициенту OLS $\hat{\beta}_1$.