Utrzymywanie stałych innych predyktorów poprzez symulację w R

Aug 16 2020

Wyobraź sobie przewidywanie, salaryże niektórzy profesorowie na podstawie ich wieloletniego doświadczenia ( time) kontrolują / utrzymują stałą liczbę publikacji ( pubs).

Pytanie: Czy poniższe informacje dotyczące znaczenia utrzymywania stałej ich liczby są pubsprawidłowe i możliwe do udowodnienia za pomocą symulacji R?

Wyobraź sobie, że mieliśmy niezliczoną liczbę profesorów, a następnie pobierz próbkę z dokładnie taką samą liczbą pubs(np.$1$).

  • Dopasuj model regresji tylko timejako predyktor, uzyskaj współczynnik regresji równy time.
  • Podjąć kolejną próbkę pubsz$2$, Dopasuj ponownie model regresji, uzyskaj współczynnik regresji wynoszący time.
  • Przechodź pubsdo$3, 4,…$i za każdym razem uzyskaj współczynnik regresji time.

Na koniec średnia naszych współczynników regresji timebędzie stanowiła częściowy współczynnik regresji , który kontrolował dla pubsprofesorów podczas prognozowania salaryz time.

ps Czy sterowanie predyktorem jest podobne do całkowania go ?

Odpowiedzi

1 Michael Aug 17 2020 at 02:22

Tak, jeśli model jest poprawnie określony .

Załóżmy, że Twoje dane są generowane przez $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ to znaczy $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Przypuszczać $x_1$ jest predyktorem zainteresowania i $x_2$to kontrola. Uwarunkowanie kontroli$x_2$ daje $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

Empiryczny odpowiednik $(*)$ to regresja, którą sugerujesz --- regresja $y$ na $x_1$ (z przecięciem) dla danej wartości $x_2$. Zauważ, że dla dowolnej podanej wartości$x_2$, warunek regresji $x_2$ jest już bezstronnym estymatorem $\beta_1$.

Uśrednianie się skończyło $x_2$sprawia, że ​​oszacowanie jest mniej hałaśliwe. Założenie$E[\epsilon|x_1, x_2] = 0$ oznacza, że ​​próbki nie są skorelowane $x_2$. Dlatego uśrednianie się skończyło$x_2$ daje mniejszy błąd standardowy.

Komentarz

Stwierdzenie „regresja uwarunkowana $x_2$ jest bezstronnym estymatorem $\beta_1$"jest zależne od poprawnej specyfikacji --- poprawna forma funkcjonalna / brak pominiętych zmiennych / itd. W prawdziwym zbiorze danych musiałbyś chcieć wierzyć / twierdzić, że prawdziwa forma funkcjonalna jest liniowa / żadne kontrole nie są pomijane / itd."

Jeśli prawdziwa funkcja regresji populacji nie jest liniowa, ale $E[\epsilon|x_1, x_2] = 0$ nadal utrzymuje się, spodziewałbym się uśrednienia współczynnika OLS dla $x_1$ od regresji warunkowej $x_2$, nazwać $\hat{\beta}_1|x_2$, nad $x_2$ być blisko współczynnika OLS $\hat{\beta}_1$.