Utrzymywanie stałych innych predyktorów poprzez symulację w R
Wyobraź sobie przewidywanie, salary
że niektórzy profesorowie na podstawie ich wieloletniego doświadczenia ( time
) kontrolują / utrzymują stałą liczbę publikacji ( pubs
).
Pytanie: Czy poniższe informacje dotyczące znaczenia utrzymywania stałej ich liczby są
pubs
prawidłowe i możliwe do udowodnienia za pomocą symulacjiR
?
Wyobraź sobie, że mieliśmy niezliczoną liczbę profesorów, a następnie pobierz próbkę z dokładnie taką samą liczbą pubs
(np.$1$).
- Dopasuj model regresji tylko
time
jako predyktor, uzyskaj współczynnik regresji równytime
. - Podjąć kolejną próbkę
pubs
z$2$, Dopasuj ponownie model regresji, uzyskaj współczynnik regresji wynoszącytime
. - Przechodź
pubs
do$3, 4,…$i za każdym razem uzyskaj współczynnik regresjitime
.
Na koniec średnia naszych współczynników regresji time
będzie stanowiła częściowy współczynnik regresji , który kontrolował dla pubs
profesorów podczas prognozowania salary
z time
.
ps Czy sterowanie predyktorem jest podobne do całkowania go ?
Odpowiedzi
Tak, jeśli model jest poprawnie określony .
Załóżmy, że Twoje dane są generowane przez $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ to znaczy $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Przypuszczać $x_1$ jest predyktorem zainteresowania i $x_2$to kontrola. Uwarunkowanie kontroli$x_2$ daje $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
Empiryczny odpowiednik $(*)$ to regresja, którą sugerujesz --- regresja $y$ na $x_1$ (z przecięciem) dla danej wartości $x_2$. Zauważ, że dla dowolnej podanej wartości$x_2$, warunek regresji $x_2$ jest już bezstronnym estymatorem $\beta_1$.
Uśrednianie się skończyło $x_2$sprawia, że oszacowanie jest mniej hałaśliwe. Założenie$E[\epsilon|x_1, x_2] = 0$ oznacza, że próbki nie są skorelowane $x_2$. Dlatego uśrednianie się skończyło$x_2$ daje mniejszy błąd standardowy.
Komentarz
Stwierdzenie „regresja uwarunkowana $x_2$ jest bezstronnym estymatorem $\beta_1$"jest zależne od poprawnej specyfikacji --- poprawna forma funkcjonalna / brak pominiętych zmiennych / itd. W prawdziwym zbiorze danych musiałbyś chcieć wierzyć / twierdzić, że prawdziwa forma funkcjonalna jest liniowa / żadne kontrole nie są pomijane / itd."
Jeśli prawdziwa funkcja regresji populacji nie jest liniowa, ale $E[\epsilon|x_1, x_2] = 0$ nadal utrzymuje się, spodziewałbym się uśrednienia współczynnika OLS dla $x_1$ od regresji warunkowej $x_2$, nazwać $\hat{\beta}_1|x_2$, nad $x_2$ być blisko współczynnika OLS $\hat{\beta}_1$.