Mantener constantes otros predictores mediante simulación en R

Aug 16 2020

Imagínese predecir salaryalgunos profesores a partir de sus años de experiencia ( time) controlando / manteniendo constante su número de publicaciones ( pubs).

Pregunta: ¿Es lo siguiente con respecto al significado de mantener constante su número pubscorrecto y demostrable mediante simulación R?

Imagine que tenemos innumerables profesores, luego tome una muestra de ellos con exactamente el mismo número de pubs(p. Ej.,$1$).

  • Ajuste un modelo de regresión con solo timecomo predictor, obtenga el coeficiente de regresión de time.
  • Tome otra muestra con pubsde$2$, Ajuste el modelo de regresión nuevamente, obtenga el coeficiente de regresión de time.
  • Sigue cambiando pubsa$3, 4,…$y cada vez obtenga el coeficiente de regresión de time.

Al final, el promedio de nuestros coeficientes de regresión de timeserá un coeficiente de regresión parcial que se ha controlado por el pubsde los profesores al predecir salaryde time.

ps ¿Controlar un predictor es similar a integrarlo ?

Respuestas

1 Michael Aug 17 2020 at 02:22

Sí, si el modelo está correctamente especificado .

Supongamos que sus datos son generados por $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ es decir $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Suponer $x_1$ es el predictor de interés y $x_2$es el control. Acondicionamiento en el control$x_2$ da $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

La contraparte empírica de $(*)$ es la regresión que estás sugiriendo --- regresión $y$ en $x_1$ (con intersección) para un valor dado de $x_2$. Tenga en cuenta que para cualquier valor dado de$x_2$, esta regresión condicionada a $x_2$ ya es un estimador insesgado de $\beta_1$.

Promediando $x_2$hace que la estimación sea menos ruidosa. La suposición$E[\epsilon|x_1, x_2] = 0$ implica que las muestras no están correlacionadas $x_2$. Por lo tanto, promediando$x_2$ da un error estándar menor.

Comentario

El enunciado "la regresión condicionada a $x_2$ es un estimador insesgado de $\beta_1$"depende de la especificación correcta --- forma funcional correcta / sin variables omitidas / etc. En un conjunto de datos real, tendría que estar dispuesto a creer / afirmar que la forma funcional verdadera es lineal / no se omiten controles / etc.

Si la verdadera función de regresión de la población no es lineal pero $E[\epsilon|x_1, x_2] = 0$ aún se mantiene, esperaría promediar el coeficiente MCO para $x_1$ de la regresión condicionada a $x_2$, llámalo $\hat{\beta}_1|x_2$, terminado $x_2$ estar cerca del coeficiente OLS $\hat{\beta}_1$.