Comment modéliser le terme d'interaction avec des régresseurs au carré?

Aug 19 2020

J'exécute une régression avec interaction d'un régresseur continu au carré avec un régresseur catégoriel. Dans Stata, l'opérateur double croisé ##produit toutes les combinaisons de mes régresseurs. Voici un MWE arbitraire:

* load data
use http://www.stata-press.com/data/r13/nlswork

* set panel structure
xtset idcode year

* fixed effects regression with interaction and square term
quietly xtreg ln_wage c.wks_ue##c.wks_ue##i.race union age i.year, i(idcode) fe 
estimates store model1 

* generate square term without interaction
gen wks_ue_sq = wks_ue^2
quietly xtreg ln_wage c.wks_ue##i.race wks_ue_sq union age i.year, i(idcode) fe 
estimates store model2

estimates table model1 model2, keep(wks_ue c.wks_ue#c.wks_ue race#c.wks_ue race#c.wks_ue#c.wks_ue wks_ue_sq ) b p

Dois-je toujours opter pour ce que j'appelle la «modération totale»? Comme je le ferais dans une triple interaction. Il y a une raison théorique pour laquelle j'ai mon terme carré et pour l'interaction en général. Mais je ne peux pas donner un bon argument sur ce que l'interaction de terme carré représenterait réellement dans mon cas.

Réponses

2 BigBendRegion Aug 19 2020 at 22:12

Deux réponses. Premièrement, l'inclusion de l'interaction au carré est presque toujours justifiée, en théorie , par le théorème de Stone-Weierstrass, qui déclare (vaguement) que votre vraie fonction de réponse moyenne est de mieux en mieux approchée par des polynômes d'ordre supérieur dans votre$X$variables. Le terme d'interaction au carré est l'un de ces termes polynomiaux d'ordre supérieur. Bien entendu, en pratique, il faut se préoccuper du surajustement et de l'utilisation de polynômes approximatifs en raison de leurs faibles propriétés d'extrapolation.

Cependant, cette justification ne semble pas si bonne dans votre cas parce que vous voulez une justification sur le sujet. Une deuxième réponse, bien que post hoc et donc pas idéale, est d'estimer deux modèles: (i) le plus simple, sans l'interaction au carré mais avec tout le reste jugé pertinent, et (ii) le même modèle mais en incluant l'interaction au carré. Ensuite, construisez des graphiques de profil de la moyenne estimée de$Y$ en fonction de votre $X$ pour les valeurs fixes de votre catégorie $X$. Superposez les profils du modèle (i) et du modèle (ii), en vous donnant un graphique pour chaque niveau de votre variable catégorielle. La comparaison de ces graphiques, ainsi que l'utilisation de vos connaissances en la matière, devraient vous aider à décider ce que fait votre terme d'interaction au carré et s'il est important.

Modifier, 21/08/2020. Une chose qui peut être anticipée a priori lorsque le prédicteur continu au carré interagit avec le prédicteur catégoriel est que le caractère de la courbure différera selon le niveau catégoriel. Par exemple, il peut y avoir une courbure prononcée à certains niveaux mais pas à d'autres.