Mantenere costanti altri predittori tramite simulazione in R
Immagina di prevedere salary
alcuni professori in base ai loro anni di esperienza ( time
) controllando / mantenendo costante il loro numero di pubblicazioni ( pubs
).
Domanda: Quanto segue riguardo al significato di mantenere costante il loro numero di
pubs
corretto e dimostrabile tramite simulazione inR
?
Immagina di avere innumerevoli professori, quindi prendi un campione di loro con lo stesso identico numero di pubs
(ad es.$1$).
- Adatta un modello di regressione con solo
time
come predittore, ottieni il coefficiente di regressione ditime
. - Prendi un altro campione con
pubs
di$2$, Adatta nuovamente il modello di regressione, ottieni il coefficiente di regressione ditime
. - Continua a cambiare
pubs
in$3, 4,…$e ogni volta ottieni il coefficiente di regressione ditime
.
Alla fine, la media dei nostri coefficienti di regressione di time
sarà un coefficiente di regressione parziale che ha controllato per i pubs
professori durante la previsione salary
da time
.
ps Il controllo di un predittore è simile all'integrazione ?
Risposte
Sì, se il modello è specificato correttamente .
Supponiamo che i tuoi dati siano generati da $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ cioè $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Supponiamo $x_1$ è il predittore di interesse e $x_2$è il controllo. Condizionamento sul controllo$x_2$ dà $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
La controparte empirica di $(*)$ è la regressione che stai suggerendo --- regredire $y$ sopra $x_1$ (con intercetta) per un dato valore di $x_2$. Nota che per ogni dato valore di$x_2$, questa regressione condizionata a $x_2$ è già uno stimatore imparziale di $\beta_1$.
Media sopra $x_2$rende la stima meno rumorosa. L'assunzione$E[\epsilon|x_1, x_2] = 0$ implica che i campioni non siano correlati tra loro $x_2$. Quindi fare la media$x_2$ fornisce un errore standard minore.
Commento
L'affermazione "la regressione condizionale $x_2$ è uno stimatore imparziale di $\beta_1$"è subordinato alla specifica corretta --- forma funzionale corretta / nessuna variabile omessa / ecc. In un insieme di dati reale, dovresti essere disposto a credere / affermare che la vera forma funzionale è lineare / nessun controllo è omesso / ecc.
Se la vera funzione di regressione della popolazione non è lineare ma $E[\epsilon|x_1, x_2] = 0$ vale ancora, mi aspetto di calcolare la media del coefficiente OLS per $x_1$ dalla regressione condizionale $x_2$, chiamalo $\hat{\beta}_1|x_2$, al di sopra di $x_2$ essere vicino al coefficiente OLS $\hat{\beta}_1$.