¿Cómo modelar el término de interacción con regresores cuadrados?

Aug 19 2020

Ejecuto una regresión con la interacción de un regresor continuo cuadrado con un regresor categórico. En Stata, el operador de doble cruz ##produce todas las combinaciones de mis regresores. Aquí hay un MWE arbitrario:

* load data
use http://www.stata-press.com/data/r13/nlswork

* set panel structure
xtset idcode year

* fixed effects regression with interaction and square term
quietly xtreg ln_wage c.wks_ue##c.wks_ue##i.race union age i.year, i(idcode) fe 
estimates store model1 

* generate square term without interaction
gen wks_ue_sq = wks_ue^2
quietly xtreg ln_wage c.wks_ue##i.race wks_ue_sq union age i.year, i(idcode) fe 
estimates store model2

estimates table model1 model2, keep(wks_ue c.wks_ue#c.wks_ue race#c.wks_ue race#c.wks_ue#c.wks_ue wks_ue_sq ) b p

¿Debería optar siempre por lo que llamo "moderación total"? Como haría yo en una interacción triple. Hay una razón teórica por la que tengo mi término cuadrado y para la interacción en general. Pero no puedo dar un buen argumento sobre lo que representaría realmente la interacción término-cuadrado en mi caso.

Respuestas

2 BigBendRegion Aug 19 2020 at 22:12

Dos respuestas. Primero, la inclusión de la interacción al cuadrado casi siempre está justificada, en teoría , por el teorema de Stone-Weierstrass, que (vagamente) establece que su función de respuesta media verdadera se aproxima mejor y mejor mediante polinomios de orden superior en$X$variables. El término de interacción al cuadrado es uno de esos términos polinomiales de orden superior. Por supuesto, en la práctica, uno debe preocuparse por el sobreajuste y por el uso de polinomios aproximados debido a sus pobres propiedades de extrapolación.

Sin embargo, esta justificación no parece tan buena en su caso porque desea una justificación del tema. Una segunda respuesta, aunque post hoc y por lo tanto no ideal, es estimar dos modelos: (i) el más simple, sin la interacción al cuadrado pero con todo lo demás considerado relevante, y (ii) el mismo modelo pero incluyendo la interacción al cuadrado. Luego, construya gráficas de perfil de la media estimada de$Y$ en función de su continuo $X$ para valores fijos de su categórico $X$. Superponga los perfiles para el modelo (i) y el modelo (ii), dado que tiene un gráfico para cada nivel de su variable categórica. La comparación de estos gráficos, junto con el uso de su conocimiento de la materia, debería ayudarlo a decidir qué está haciendo su término de interacción al cuadrado y si es importante.

Editar, 21/8/2020. Una cosa que se puede anticipar a priori cuando el predictor continuo cuadrado interactúa con el predictor categórico es que el carácter de la curvatura diferirá según el nivel categórico. Por ejemplo, puede haber una curvatura pronunciada dentro de algunos niveles pero no en otros.