Maintenir les autres prédicteurs constants via la simulation dans R

Aug 16 2020

Imaginez prédire salarycertains professeurs à partir de leurs années d'expérience ( time) contrôler / maintenir constant leur nombre de publications ( pubs).

Question: Est-ce que ce qui suit concernant la signification de maintenir constant leur nombre de pubscorrect, et démontrable par simulation dans R?

Imaginez que nous ayons d'innombrables professeurs, puis prenez-en un échantillon avec exactement le même nombre de pubs(par exemple,$1$).

  • Ajuster un modèle de régression avec uniquement timecomme prédicteur, obtenir le coef de régression de time.
  • Prenez un autre échantillon avec pubsde$2$, Ajustez à nouveau le modèle de régression, obtenez le coef de régression de time.
  • Continuez à changer pubspour$3, 4,…$et à chaque fois obtenir le coef de régression de time.

À la fin, la moyenne de nos coefs de régression de timesera un coefficient de régression partiel qui a contrôlé pour les pubsprofesseurs tout en prédisant à salarypartir de time.

ps Le contrôle d'un prédicteur est-il similaire à son intégration ?

Réponses

1 Michael Aug 17 2020 at 02:22

Oui, si le modèle est correctement spécifié .

Supposons que vos données soient générées par $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ c'est à dire $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Supposer $x_1$ est le prédicteur de l'intérêt et $x_2$est le contrôle. Conditionnement sur la commande$x_2$ donne $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

La contrepartie empirique de $(*)$ est la régression que vous suggérez --- régresser $y$ sur $x_1$ (avec interception) pour une valeur donnée de $x_2$. Notez que pour toute valeur donnée de$x_2$, cette régression conditionnée à $x_2$ est déjà un estimateur sans biais de $\beta_1$.

Moyenne sur $x_2$rend l'estimation moins bruyante. L'hypothèse$E[\epsilon|x_1, x_2] = 0$ implique que les échantillons ne sont pas corrélés $x_2$. Par conséquent, en faisant la moyenne sur$x_2$ donne une erreur standard plus petite.

Commentaire

L'énoncé «la régression conditionnelle à $x_2$ est un estimateur sans biais de $\beta_1$"dépend de la spécification correcte --- forme fonctionnelle correcte / pas de variables omises / etc. Dans un ensemble de données réel, vous devriez vouloir croire / prétendre que la vraie forme fonctionnelle est linéaire / aucun contrôle n'est omis / etc.

Si la vraie fonction de régression de la population n'est pas linéaire mais $E[\epsilon|x_1, x_2] = 0$ tient toujours, je m'attendrais à faire la moyenne du coefficient OLS pour $x_1$ de la régression conditionnelle à $x_2$, appeler $\hat{\beta}_1|x_2$, plus de $x_2$ être proche du coefficient OLS $\hat{\beta}_1$.