Manter outros preditores constantes por meio de simulação em R
Imagine prever salary
de alguns professores a partir de seus anos de experiência ( time
) controlando / mantendo constante seu número de publicações ( pubs
).
Pergunta: O seguinte está relacionado ao significado de manter constante seu número de
pubs
correto e demonstrável por meio de simulação emR
?
Imagine que temos incontáveis professores e, em seguida, pegue uma amostra deles com exatamente o mesmo número de pubs
(por exemplo,$1$)
- Ajuste um modelo de regressão com apenas
time
como preditor, obtenha o coeficiente de regressão detime
. - Pegue outra amostra com
pubs
de$2$, Ajuste o modelo de regressão novamente, obtenha o coeficiente de regressão detime
. - Continue mudando
pubs
para$3, 4,…$e cada vez obtém o coeficiente de regressão detime
.
No final, a média de nossos coeficientes de regressão de time
será um coeficiente de regressão parcial que foi controlado para o pubs
de professores ao prever salary
de time
.
ps É o controle de um preditor semelhante a integrá-lo ?
Respostas
Sim, se o modelo for especificado corretamente .
Suponha que seus dados sejam gerados por $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ ie $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Suponha $x_1$ é o preditor de interesse e $x_2$é o controle. Condicionamento no controle$x_2$ dá $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
A contrapartida empírica de $(*)$ é a regressão que você está sugerindo --- regressão $y$ em $x_1$ (com interceptação) para um determinado valor de $x_2$. Observe que para qualquer determinado valor de$x_2$, esta regressão condicionada a $x_2$ já é um estimador imparcial de $\beta_1$.
Média de $x_2$torna a estimativa menos ruidosa. A suposição$E[\epsilon|x_1, x_2] = 0$ implica que as amostras não estão correlacionadas entre $x_2$. Portanto, calculando a média$x_2$ dá um erro padrão menor.
Comente
A afirmação "a regressão condicional $x_2$ é um estimador imparcial de $\beta_1$"depende da especificação correta --- forma funcional correta / sem variáveis omitidas / etc. Em um conjunto de dados real, você teria que querer acreditar / afirmar que a forma funcional verdadeira é linear / nenhum controle é omitido / etc.
Se a verdadeira função de regressão da população não for linear, mas $E[\epsilon|x_1, x_2] = 0$ ainda se mantém, eu esperaria calcular a média do coeficiente OLS para $x_1$ da regressão condicional em $x_2$, chame-o $\hat{\beta}_1|x_2$, sobre $x_2$ estar perto do coeficiente OLS $\hat{\beta}_1$.