Memegang prediktor lain konstan melalui simulasi di R
Bayangkan memprediksi salary
beberapa profesor dari pengalaman bertahun-tahun mereka ( time
) mengendalikan / mempertahankan jumlah publikasi mereka ( pubs
).
Pertanyaan: Apakah hal berikut ini mengenai arti memegang konstanta jumlah yang
pubs
benar, dan dapat dibuktikan melalui simulasi dalamR
?
Bayangkan kita memiliki profesor yang tak terhitung jumlahnya, lalu ambil sampel dari mereka dengan jumlah yang sama persis pubs
(mis.,$1$).
- Paskan model regresi dengan hanya
time
sebagai prediktor, dapatkan koefisien regresitime
. - Mengambil sampel lain dengan
pubs
dari$2$, Paskan lagi model regresi, dapatkan koefisien regresitime
. - Terus ganti
pubs
ke$3, 4,…$dan setiap kali mendapatkan koefisien regresitime
.
Pada akhirnya, rata - rata koefisien regresi kami time
akan menjadi koefisien regresi parsial yang telah mengontrol tingkat pubs
profesor saat memprediksi salary
dari time
.
ps Apakah mengontrol prediktor mirip dengan mengintegrasikannya ?
Jawaban
Ya, jika model ditentukan dengan benar .
Misalkan data Anda dihasilkan oleh $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ yaitu $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Seharusnya $x_1$ adalah prediktor minat dan $x_2$adalah kendali. Pengkondisian di kontrol$x_2$ memberi $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
Mitra empiris dari $(*)$ adalah regresi yang Anda sarankan --- regresi $y$ di $x_1$ (dengan intersep) untuk nilai tertentu $x_2$. Perhatikan bahwa untuk nilai tertentu$x_2$, regresi ini bergantung pada $x_2$ sudah menjadi penaksir yang tidak bias $\beta_1$.
Rata-rata selesai $x_2$membuat perkiraan tidak terlalu berisik. Asumsi$E[\epsilon|x_1, x_2] = 0$ menyiratkan sampel tidak berkorelasi $x_2$. Oleh karena itu rata-rata selesai$x_2$ memberikan kesalahan standar yang lebih kecil.
Komentar
Pernyataan "regresi bergantung pada $x_2$ adalah penaksir yang tidak bias $\beta_1$"bergantung pada spesifikasi yang benar --- bentuk fungsional yang benar / tidak ada variabel yang dihilangkan / dll. Dalam kumpulan data nyata, Anda harus bersedia untuk percaya / mengklaim bentuk fungsional yang sebenarnya adalah linier / tidak ada kontrol yang dihilangkan / dll.
Jika sebenarnya fungsi regresi populasi tidak linier tapi $E[\epsilon|x_1, x_2] = 0$ masih berlaku, saya harapkan rata-rata koefisien OLS untuk $x_1$ dari regresi bersyarat $x_2$, sebut saja $\hat{\beta}_1|x_2$, lebih $x_2$ mendekati koefisien OLS $\hat{\beta}_1$.