Сохранение постоянных других предикторов с помощью моделирования в R

Aug 16 2020

Представьте себе, что salaryнекоторые профессора предсказывают, исходя из их многолетнего опыта ( time), контролируя / сохраняя постоянное количество публикаций ( pubs).

Вопрос: Правильно ли следующее относительно значения поддержания постоянного их количества pubsи демонстрируется ли оно с помощью моделирования R?

Представьте, что у нас было бесчисленное количество профессоров, а затем возьмите их выборку с точно таким же количеством pubs(например,$1$).

Подгоните регрессионную модель только в timeкачестве предиктора, получите коэффициент регрессии time.
Возьмем другой образец с pubsиз$2$, Снова установите регрессионную модель, получите коэффициент регрессии time.
Продолжайте переходить pubsна$3, 4,…$и каждый раз получить коэффициент регрессии time.

В конце концов, в среднем наших регрессий coefs из timeбудет частичный коэффициент регрессии , который контролируемый для pubsпреподавателей при прогнозировании salaryиз time.

ps Контроль предсказателя похож на его интеграцию ?

Ответы

1 Michael Aug 17 2020 at 02:22

Да, если модель указана правильно .

Предположим, ваши данные генерируются $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ т.е. $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Предположим $x_1$ является предиктором интереса и $x_2$это контроль. Условие на контроле$x_2$ дает $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

Эмпирический аналог $(*)$ регресс, который вы предлагаете --- регресс $y$ на $x_1$ (с перехватом) для данного значения $x_2$. Обратите внимание, что для любого заданного значения$x_2$, эта регрессия зависит от $x_2$ уже является объективной оценкой $\beta_1$.

Усреднение по $x_2$делает оценку менее шумной. Предположение$E[\epsilon|x_1, x_2] = 0$ подразумевает, что образцы не коррелированы по $x_2$. Поэтому усреднение по$x_2$ дает меньшую стандартную ошибку.

Комментарий

Утверждение "регресс, обусловленный $x_2$ объективная оценка $\beta_1$"зависит от правильной спецификации --- правильная функциональная форма / отсутствие пропущенных переменных / и т. д. В реальном наборе данных вам нужно будет верить / утверждать, что истинная функциональная форма линейна / элементы управления не пропущены / и т. д.

Если истинная функция регрессии популяции не является линейной, а $E[\epsilon|x_1, x_2] = 0$ все еще сохраняется, я бы ожидал усреднить коэффициент OLS для $x_1$ из регрессии при условии $x_2$, назови это $\hat{\beta}_1|x_2$, над $x_2$ быть близким к коэффициенту OLS $\hat{\beta}_1$.