Maintenir les autres prédicteurs constants via la simulation dans R
Imaginez prédire salary
certains professeurs à partir de leurs années d'expérience ( time
) contrôler / maintenir constant leur nombre de publications ( pubs
).
Question: Est-ce que ce qui suit concernant la signification de maintenir constant leur nombre de
pubs
correct, et démontrable par simulation dansR
?
Imaginez que nous ayons d'innombrables professeurs, puis prenez-en un échantillon avec exactement le même nombre de pubs
(par exemple,$1$).
- Ajuster un modèle de régression avec uniquement
time
comme prédicteur, obtenir le coef de régression detime
. - Prenez un autre échantillon avec
pubs
de$2$, Ajustez à nouveau le modèle de régression, obtenez le coef de régression detime
. - Continuez à changer
pubs
pour$3, 4,…$et à chaque fois obtenir le coef de régression detime
.
À la fin, la moyenne de nos coefs de régression de time
sera un coefficient de régression partiel qui a contrôlé pour les pubs
professeurs tout en prédisant à salary
partir de time
.
ps Le contrôle d'un prédicteur est-il similaire à son intégration ?
Réponses
Oui, si le modèle est correctement spécifié .
Supposons que vos données soient générées par $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ c'est à dire $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Supposer $x_1$ est le prédicteur de l'intérêt et $x_2$est le contrôle. Conditionnement sur la commande$x_2$ donne $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
La contrepartie empirique de $(*)$ est la régression que vous suggérez --- régresser $y$ sur $x_1$ (avec interception) pour une valeur donnée de $x_2$. Notez que pour toute valeur donnée de$x_2$, cette régression conditionnée à $x_2$ est déjà un estimateur sans biais de $\beta_1$.
Moyenne sur $x_2$rend l'estimation moins bruyante. L'hypothèse$E[\epsilon|x_1, x_2] = 0$ implique que les échantillons ne sont pas corrélés $x_2$. Par conséquent, en faisant la moyenne sur$x_2$ donne une erreur standard plus petite.
Commentaire
L'énoncé «la régression conditionnelle à $x_2$ est un estimateur sans biais de $\beta_1$"dépend de la spécification correcte --- forme fonctionnelle correcte / pas de variables omises / etc. Dans un ensemble de données réel, vous devriez vouloir croire / prétendre que la vraie forme fonctionnelle est linéaire / aucun contrôle n'est omis / etc.
Si la vraie fonction de régression de la population n'est pas linéaire mais $E[\epsilon|x_1, x_2] = 0$ tient toujours, je m'attendrais à faire la moyenne du coefficient OLS pour $x_1$ de la régression conditionnelle à $x_2$, appeler $\hat{\beta}_1|x_2$, plus de $x_2$ être proche du coefficient OLS $\hat{\beta}_1$.