Come modellare il termine di interazione con i regressori al quadrato?
Eseguo una regressione con l'interazione di un regressore continuo quadrato con un regressore categoriale. In Stata l'operatore double cross ##
produce tutte le combinazioni dei miei regressori. Ecco un MWE arbitrario:
* load data
use http://www.stata-press.com/data/r13/nlswork
* set panel structure
xtset idcode year
* fixed effects regression with interaction and square term
quietly xtreg ln_wage c.wks_ue##c.wks_ue##i.race union age i.year, i(idcode) fe
estimates store model1
* generate square term without interaction
gen wks_ue_sq = wks_ue^2
quietly xtreg ln_wage c.wks_ue##i.race wks_ue_sq union age i.year, i(idcode) fe
estimates store model2
estimates table model1 model2, keep(wks_ue c.wks_ue#c.wks_ue race#c.wks_ue race#c.wks_ue#c.wks_ue wks_ue_sq ) b p

Dovrei sempre optare per quella che chiamo "piena moderazione"? Come farei in una triplice interazione. C'è una ragione teorica per cui ho il mio termine quadrato e per l'interazione in generale. Ma non posso fornire una buona argomentazione su ciò che l'interazione termine quadrato rappresenterebbe effettivamente nel mio caso.
Risposte
Due risposte. In primo luogo, l'inclusione dell'interazione al quadrato è quasi sempre giustificata, in teoria , dal teorema di Stone-Weierstrass, che afferma (vagamente) che la tua vera funzione di risposta media è meglio e meglio approssimata da polinomi di ordine superiore nel tuo$X$variabili. Il termine di interazione al quadrato è uno di questi termini polinomiali di ordine superiore. Naturalmente, in pratica, bisogna preoccuparsi dell'overfitting e dell'uso di polinomi approssimativi a causa delle loro scarse proprietà di estrapolazione.
Tuttavia, questa giustificazione non sembra così grande nel tuo caso perché vuoi una motivazione in materia. Una seconda risposta, anche se post hoc e quindi non ideale, è stimare due modelli: (i) quello più semplice, senza l'interazione al quadrato ma con tutto il resto ritenuto rilevante, e (ii) lo stesso modello ma includendo l'interazione al quadrato. Quindi, costruire grafici del profilo della media stimata di$Y$ in funzione del tuo continuo $X$ per valori fissi del tuo categoriale $X$. Sovrapponi i profili per il modello (i) e il modello (ii), dato un grafico per ogni livello della tua variabile categoriale. Il confronto di questi grafici, insieme all'uso della conoscenza della materia, dovrebbe aiutarti a decidere cosa sta facendo il tuo termine di interazione al quadrato e se è importante.
Modifica, 21/8/2020. Una cosa che può essere anticipata a priori quando il predittore continuo al quadrato interagisce con il predittore categoriale è che il carattere della curvatura differirà in base al livello categoriale. Ad esempio, potrebbe esserci una curvatura pronunciata all'interno di alcuni livelli ma non in altri.