Bagaimana memodelkan istilah interaksi dengan regresi kuadrat?

Aug 19 2020

Saya menjalankan regresi dengan interaksi regressor kontinu kuadrat dengan regressor kategoris. Di Stata, operator silang ganda ##menghasilkan semua kombinasi regressor saya. Berikut adalah MWE sewenang-wenang:

* load data
use http://www.stata-press.com/data/r13/nlswork

* set panel structure
xtset idcode year

* fixed effects regression with interaction and square term
quietly xtreg ln_wage c.wks_ue##c.wks_ue##i.race union age i.year, i(idcode) fe 
estimates store model1 

* generate square term without interaction
gen wks_ue_sq = wks_ue^2
quietly xtreg ln_wage c.wks_ue##i.race wks_ue_sq union age i.year, i(idcode) fe 
estimates store model2

estimates table model1 model2, keep(wks_ue c.wks_ue#c.wks_ue race#c.wks_ue race#c.wks_ue#c.wks_ue wks_ue_sq ) b p

Haruskah saya selalu melakukan apa yang saya sebut "moderasi penuh"? Seperti yang akan saya lakukan dalam interaksi tiga kali lipat. Ada alasan teoritis mengapa saya menggunakan istilah kuadrat, dan untuk interaksi secara umum. Tapi saya tidak bisa memberikan argumen yang baik tentang apa yang sebenarnya diwakili oleh interaksi istilah persegi dalam kasus saya.

Jawaban

2 BigBendRegion Aug 19 2020 at 22:12

Dua jawaban. Pertama, penyertaan interaksi kuadrat hampir selalu dibenarkan, dalam teori , oleh teorema Stone-Weierstrass, yang (secara longgar) menyatakan bahwa fungsi respons mean sebenarnya lebih baik dan lebih baik didekati oleh polinomial orde tinggi di$X$variabel. Istilah interaksi kuadrat adalah salah satu suku polinomial orde tinggi. Tentu saja, dalam praktiknya, seseorang harus memperhatikan tentang overfitting, dan tentang penggunaan polinomial yang mendekati karena sifat ekstrapolasi yang buruk.

Namun, pembenaran ini tampaknya tidak terlalu bagus dalam kasus Anda karena Anda menginginkan alasan pokok bahasan. Jawaban kedua, meskipun post hoc dan oleh karena itu tidak ideal, adalah memperkirakan dua model: (i) yang lebih sederhana, tanpa interaksi kuadrat tetapi dengan semua yang dianggap relevan, dan (ii) model yang sama tetapi termasuk interaksi kuadrat. Kemudian, buat plot profil dari perkiraan rata-rata$Y$ sebagai fungsi kontinu Anda $X$ untuk nilai tetap kategoris Anda $X$. Overlay profil untuk model (i) dan model (ii), memberikan Anda satu grafik untuk setiap level variabel kategorikal Anda. Membandingkan plot ini, bersama dengan penggunaan pengetahuan materi pelajaran Anda, akan membantu Anda memutuskan apa yang dilakukan istilah interaksi kuadrat Anda, dan apakah itu penting.

Edit, 21/8/2020. Satu hal yang dapat diantisipasi secara apriori ketika squared continuous predictor berinteraksi dengan kategorikal prediktor adalah bahwa karakter kelengkungan akan berbeda menurut level kategorinya. Misalnya, mungkin ada kelengkungan yang jelas dalam beberapa level tetapi tidak pada level lainnya.