Andere Prädiktoren durch Simulation in R konstant halten

Aug 16 2020

Stellen Sie sich vor, Sie prognostizieren salaryeinige Professoren aus ihrer jahrelangen Erfahrung ( time), die die Anzahl ihrer Veröffentlichungen kontrolliert / konstant hält ( pubs).

Frage: Ist das Folgende in Bezug auf die Bedeutung des Konstanthaltens der Anzahl pubskorrekt und durch Simulation in nachweisbar R?

Stellen Sie sich vor, wir hätten unzählige Professoren und nehmen dann eine Stichprobe von ihnen mit genau der gleichen Anzahl von pubs(z.$1$).

  • Passen Sie ein Regressionsmodell nur timeals Prädiktor an und erhalten Sie den Regressionskoeffizienten von time.
  • Nehmen Sie eine weitere Probe mit pubsvon$2$Passen Sie das Regressionsmodell erneut an und erhalten Sie den Regressionskoeffizienten von time.
  • Wechseln Sie weiter pubszu$3, 4,…$und jedes Mal bekommen die Regression Coef von time.

Am Ende wird der Durchschnitt unserer Regressionskoeffizienten von timeein partieller Regressionskoeffizient sein , der für die pubsProfessoren kontrolliert wurde, während salaryaus vorhergesagt wird time.

ps Ist die Steuerung eines Prädiktors ähnlich wie die Integration ?

Antworten

1 Michael Aug 17 2020 at 02:22

Ja, wenn das Modell korrekt angegeben ist .

Angenommen, Ihre Daten werden von generiert $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ dh $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Annehmen $x_1$ ist der Prädiktor des Interesses und $x_2$ist Kontrolle. Konditionierung an der Steuerung$x_2$ gibt $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

Das empirische Gegenstück zu $(*)$ ist die Regression, die Sie vorschlagen --- Regression $y$ auf $x_1$ (mit Achsenabschnitt) für einen gegebenen Wert von $x_2$. Beachten Sie, dass für jeden gegebenen Wert von$x_2$, diese Regression bedingt von $x_2$ ist bereits ein unvoreingenommener Schätzer von $\beta_1$.

Mittelwertbildung über $x_2$macht die Schätzung weniger laut. Die Annahme$E[\epsilon|x_1, x_2] = 0$ impliziert, dass Stichproben nicht korreliert sind $x_2$. Daher Mittelwertbildung über$x_2$ gibt einen kleineren Standardfehler.

Kommentar

Die Aussage "Die Regression ist abhängig von $x_2$ ist ein unvoreingenommener Schätzer von $\beta_1$"hängt von der korrekten Spezifikation ab --- korrekte Funktionsform / keine ausgelassenen Variablen / etc. In einem realen Datensatz müssten Sie bereit sein zu glauben / behaupten, dass die wahre Funktionsform linear ist / keine Kontrollen ausgelassen werden / etc.

Wenn die wahre Populationsregressionsfunktion aber nicht linear ist $E[\epsilon|x_1, x_2] = 0$ gilt immer noch, ich würde erwarten, den OLS-Koeffizienten für zu mitteln $x_1$ ab der Regression bedingt $x_2$, nennen $\hat{\beta}_1|x_2$, Über $x_2$ nahe am OLS-Koeffizienten sein $\hat{\beta}_1$.