Manter outros preditores constantes por meio de simulação em R

Aug 16 2020

Imagine prever salaryde alguns professores a partir de seus anos de experiência ( time) controlando / mantendo constante seu número de publicações ( pubs).

Pergunta: O seguinte está relacionado ao significado de manter constante seu número de pubscorreto e demonstrável por meio de simulação em R?

Imagine que temos incontáveis ​​professores e, em seguida, pegue uma amostra deles com exatamente o mesmo número de pubs(por exemplo,$1$)

  • Ajuste um modelo de regressão com apenas timecomo preditor, obtenha o coeficiente de regressão de time.
  • Pegue outra amostra com pubsde$2$, Ajuste o modelo de regressão novamente, obtenha o coeficiente de regressão de time.
  • Continue mudando pubspara$3, 4,…$e cada vez obtém o coeficiente de regressão de time.

No final, a média de nossos coeficientes de regressão de timeserá um coeficiente de regressão parcial que foi controlado para o pubsde professores ao prever salaryde time.

ps É o controle de um preditor semelhante a integrá-lo ?

Respostas

1 Michael Aug 17 2020 at 02:22

Sim, se o modelo for especificado corretamente .

Suponha que seus dados sejam gerados por $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ ie $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Suponha $x_1$ é o preditor de interesse e $x_2$é o controle. Condicionamento no controle$x_2$$$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

A contrapartida empírica de $(*)$ é a regressão que você está sugerindo --- regressão $y$ em $x_1$ (com interceptação) para um determinado valor de $x_2$. Observe que para qualquer determinado valor de$x_2$, esta regressão condicionada a $x_2$ já é um estimador imparcial de $\beta_1$.

Média de $x_2$torna a estimativa menos ruidosa. A suposição$E[\epsilon|x_1, x_2] = 0$ implica que as amostras não estão correlacionadas entre $x_2$. Portanto, calculando a média$x_2$ dá um erro padrão menor.

Comente

A afirmação "a regressão condicional $x_2$ é um estimador imparcial de $\beta_1$"depende da especificação correta --- forma funcional correta / sem variáveis ​​omitidas / etc. Em um conjunto de dados real, você teria que querer acreditar / afirmar que a forma funcional verdadeira é linear / nenhum controle é omitido / etc.

Se a verdadeira função de regressão da população não for linear, mas $E[\epsilon|x_1, x_2] = 0$ ainda se mantém, eu esperaria calcular a média do coeficiente OLS para $x_1$ da regressão condicional em $x_2$, chame-o $\hat{\beta}_1|x_2$, sobre $x_2$ estar perto do coeficiente OLS $\hat{\beta}_1$.