Come modellare il termine di interazione con i regressori al quadrato?

Aug 19 2020

Eseguo una regressione con l'interazione di un regressore continuo quadrato con un regressore categoriale. In Stata l'operatore double cross ##produce tutte le combinazioni dei miei regressori. Ecco un MWE arbitrario:

* load data
use http://www.stata-press.com/data/r13/nlswork

* set panel structure
xtset idcode year

* fixed effects regression with interaction and square term
quietly xtreg ln_wage c.wks_ue##c.wks_ue##i.race union age i.year, i(idcode) fe 
estimates store model1 

* generate square term without interaction
gen wks_ue_sq = wks_ue^2
quietly xtreg ln_wage c.wks_ue##i.race wks_ue_sq union age i.year, i(idcode) fe 
estimates store model2

estimates table model1 model2, keep(wks_ue c.wks_ue#c.wks_ue race#c.wks_ue race#c.wks_ue#c.wks_ue wks_ue_sq ) b p

Dovrei sempre optare per quella che chiamo "piena moderazione"? Come farei in una triplice interazione. C'è una ragione teorica per cui ho il mio termine quadrato e per l'interazione in generale. Ma non posso fornire una buona argomentazione su ciò che l'interazione termine quadrato rappresenterebbe effettivamente nel mio caso.

Risposte

2 BigBendRegion Aug 19 2020 at 22:12

Due risposte. In primo luogo, l'inclusione dell'interazione al quadrato è quasi sempre giustificata, in teoria , dal teorema di Stone-Weierstrass, che afferma (vagamente) che la tua vera funzione di risposta media è meglio e meglio approssimata da polinomi di ordine superiore nel tuo$X$variabili. Il termine di interazione al quadrato è uno di questi termini polinomiali di ordine superiore. Naturalmente, in pratica, bisogna preoccuparsi dell'overfitting e dell'uso di polinomi approssimativi a causa delle loro scarse proprietà di estrapolazione.

Tuttavia, questa giustificazione non sembra così grande nel tuo caso perché vuoi una motivazione in materia. Una seconda risposta, anche se post hoc e quindi non ideale, è stimare due modelli: (i) quello più semplice, senza l'interazione al quadrato ma con tutto il resto ritenuto rilevante, e (ii) lo stesso modello ma includendo l'interazione al quadrato. Quindi, costruire grafici del profilo della media stimata di$Y$ in funzione del tuo continuo $X$ per valori fissi del tuo categoriale $X$. Sovrapponi i profili per il modello (i) e il modello (ii), dato un grafico per ogni livello della tua variabile categoriale. Il confronto di questi grafici, insieme all'uso della conoscenza della materia, dovrebbe aiutarti a decidere cosa sta facendo il tuo termine di interazione al quadrato e se è importante.

Modifica, 21/8/2020. Una cosa che può essere anticipata a priori quando il predittore continuo al quadrato interagisce con il predittore categoriale è che il carattere della curvatura differirà in base al livello categoriale. Ad esempio, potrebbe esserci una curvatura pronunciata all'interno di alcuni livelli ma non in altri.