Regressione: è sbagliato cestinare una variabile continua per superare l'overfitting?

Aug 19 2020

Gli statistici mi impiccherebbero per aver fatto quanto segue?

Ho un dataset eterogeneo di soggetti anziani. Pertanto, ho un modello con 7 predittori, inclusi 4 categorici, di cui alcuni hanno molti livelli. Sto facendo un'analisi regionale, il che significa che alcune regioni hanno meno soggetti su determinati livelli di riferimento di diverse variabili categoriali.

I soggetti sono per lo più di età compresa tra 70 e 90 anni. La variabile dell'età, compresa tra 50 e 100 anni, sta causando un chiaro overfitting rispetto all'analisi dei dati esplicativi dei grafici. Ho scoperto che in alcune regioni non ci sono abbastanza soggetti di età media per fare previsioni significative. Quando divido la variabile età in intervalli di 10 anni e utilizzo come riferimento l'intervallo con il maggior numero di soggetti, i risultati della regressione sono in linea con l'analisi esplicativa dei dati.

Il raggruppamento della variabile età andrebbe bene se pubblico entrambi: grafici su dati grezzi + analisi corretta? Pertanto, entrambe le analisi confermano l'esito principale: la variabilità regionale.

Risposte

3 EdM Aug 20 2020 at 04:44

Binning una variabile continua non è una buona idea . È improbabile che tu venga aggredito fisicamente dagli statistici per averlo fatto, ma probabilmente riceveresti molti sguardi duri e accigliati e borbottii sottovoce.

C'è un approccio molto migliore per affrontare questo tipo di problema, che trasformerebbe le sopracciglia in sorrisi: usa un modello misto . Ciò consente di combinare le informazioni in modo utile tra individui in diverse regioni senza dover coprire tutte le combinazioni di predittori all'interno di ciascuna regione. A seconda dello scopo del tuo studio, ciò potrebbe essere fatto con un modello multilivello che tratta sia gli individui che le regioni come effetti casuali. Questa recente risposta fornisce una buona descrizione dei vantaggi di tale modellazione.

Per quanto riguarda l'età come predittore continuo, potrebbe essere utile modellare con una spline in grado di scoprire relazioni non lineari tra età e risultato come parte di un processo di modellazione lineare. Che può essere incorporato in un modello misto tramite pacchetti software standard.