Memegang prediktor lain konstan melalui simulasi di R

Aug 16 2020

Bayangkan memprediksi salarybeberapa profesor dari pengalaman bertahun-tahun mereka ( time) mengendalikan / mempertahankan jumlah publikasi mereka ( pubs).

Pertanyaan: Apakah hal berikut ini mengenai arti memegang konstanta jumlah yang pubsbenar, dan dapat dibuktikan melalui simulasi dalam R?

Bayangkan kita memiliki profesor yang tak terhitung jumlahnya, lalu ambil sampel dari mereka dengan jumlah yang sama persis pubs(mis.,$1$).

  • Paskan model regresi dengan hanya timesebagai prediktor, dapatkan koefisien regresi time.
  • Mengambil sampel lain dengan pubsdari$2$, Paskan lagi model regresi, dapatkan koefisien regresi time.
  • Terus ganti pubske$3, 4,…$dan setiap kali mendapatkan koefisien regresi time.

Pada akhirnya, rata - rata koefisien regresi kami timeakan menjadi koefisien regresi parsial yang telah mengontrol tingkat pubsprofesor saat memprediksi salarydari time.

ps Apakah mengontrol prediktor mirip dengan mengintegrasikannya ?

Jawaban

1 Michael Aug 17 2020 at 02:22

Ya, jika model ditentukan dengan benar .

Misalkan data Anda dihasilkan oleh $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ yaitu $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Seharusnya $x_1$ adalah prediktor minat dan $x_2$adalah kendali. Pengkondisian di kontrol$x_2$ memberi $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

Mitra empiris dari $(*)$ adalah regresi yang Anda sarankan --- regresi $y$ di $x_1$ (dengan intersep) untuk nilai tertentu $x_2$. Perhatikan bahwa untuk nilai tertentu$x_2$, regresi ini bergantung pada $x_2$ sudah menjadi penaksir yang tidak bias $\beta_1$.

Rata-rata selesai $x_2$membuat perkiraan tidak terlalu berisik. Asumsi$E[\epsilon|x_1, x_2] = 0$ menyiratkan sampel tidak berkorelasi $x_2$. Oleh karena itu rata-rata selesai$x_2$ memberikan kesalahan standar yang lebih kecil.

Komentar

Pernyataan "regresi bergantung pada $x_2$ adalah penaksir yang tidak bias $\beta_1$"bergantung pada spesifikasi yang benar --- bentuk fungsional yang benar / tidak ada variabel yang dihilangkan / dll. Dalam kumpulan data nyata, Anda harus bersedia untuk percaya / mengklaim bentuk fungsional yang sebenarnya adalah linier / tidak ada kontrol yang dihilangkan / dll.

Jika sebenarnya fungsi regresi populasi tidak linier tapi $E[\epsilon|x_1, x_2] = 0$ masih berlaku, saya harapkan rata-rata koefisien OLS untuk $x_1$ dari regresi bersyarat $x_2$, sebut saja $\hat{\beta}_1|x_2$, lebih $x_2$ mendekati koefisien OLS $\hat{\beta}_1$.