Mantener constantes otros predictores mediante simulación en R
Imagínese predecir salary
algunos profesores a partir de sus años de experiencia ( time
) controlando / manteniendo constante su número de publicaciones ( pubs
).
Pregunta: ¿Es lo siguiente con respecto al significado de mantener constante su número
pubs
correcto y demostrable mediante simulaciónR
?
Imagine que tenemos innumerables profesores, luego tome una muestra de ellos con exactamente el mismo número de pubs
(p. Ej.,$1$).
- Ajuste un modelo de regresión con solo
time
como predictor, obtenga el coeficiente de regresión detime
. - Tome otra muestra con
pubs
de$2$, Ajuste el modelo de regresión nuevamente, obtenga el coeficiente de regresión detime
. - Sigue cambiando
pubs
a$3, 4,…$y cada vez obtenga el coeficiente de regresión detime
.
Al final, el promedio de nuestros coeficientes de regresión de time
será un coeficiente de regresión parcial que se ha controlado por el pubs
de los profesores al predecir salary
de time
.
ps ¿Controlar un predictor es similar a integrarlo ?
Respuestas
Sí, si el modelo está correctamente especificado .
Supongamos que sus datos son generados por $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ es decir $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Suponer $x_1$ es el predictor de interés y $x_2$es el control. Acondicionamiento en el control$x_2$ da $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
La contraparte empírica de $(*)$ es la regresión que estás sugiriendo --- regresión $y$ en $x_1$ (con intersección) para un valor dado de $x_2$. Tenga en cuenta que para cualquier valor dado de$x_2$, esta regresión condicionada a $x_2$ ya es un estimador insesgado de $\beta_1$.
Promediando $x_2$hace que la estimación sea menos ruidosa. La suposición$E[\epsilon|x_1, x_2] = 0$ implica que las muestras no están correlacionadas $x_2$. Por lo tanto, promediando$x_2$ da un error estándar menor.
Comentario
El enunciado "la regresión condicionada a $x_2$ es un estimador insesgado de $\beta_1$"depende de la especificación correcta --- forma funcional correcta / sin variables omitidas / etc. En un conjunto de datos real, tendría que estar dispuesto a creer / afirmar que la forma funcional verdadera es lineal / no se omiten controles / etc.
Si la verdadera función de regresión de la población no es lineal pero $E[\epsilon|x_1, x_2] = 0$ aún se mantiene, esperaría promediar el coeficiente MCO para $x_1$ de la regresión condicionada a $x_2$, llámalo $\hat{\beta}_1|x_2$, terminado $x_2$ estar cerca del coeficiente OLS $\hat{\beta}_1$.