L'imputazione introduce pregiudizi inaccettabili?

Aug 19 2020

Recentemente sono venuto a conoscenza delle tecniche di imputazione, che, in breve, "indovinano" valori realistici con cui sostituire i valori mancanti in un set di dati. Il mio grosso problema con questo è che stiamo indovinando i dati assumendo che siano simili a quelli che avevamo già, il che rafforzerà qualsiasi modello che potrebbe essere nei dati, trasformando potenzialmente un modello non significativo in uno significativo. Come è accettabile questa pratica? Cosa mi manca?

Sono relativamente nuovo all'argomento ma ho svolto alcuni studi e sono consapevole che le tecniche di imputazione vanno dalla sostituzione di tutti gli NA con un valore "realistico" fisso, alla sostituzione con il valore medio dei valori osservati, all'indovinare i valori mancanti con metodi del vicino più vicino o con metodi di massima verosimiglianza. Sebbene comprenda come funzionano questi metodi, non riesco a scrollarmi di dosso l'idea che stiano creando dati. Le tecniche di assegnazione differiscono per complessità e per quanto vicini al reale possono sembrare i dati elaborati, ma continuano a creare dati. Per me, questa pratica sconfigge l'intero punto della statistica come strumento per trarre inferenze realistiche su una popolazione sulla base di un campione reale e non alterato di esso, e non solo un campione realistico di esso.La mia domanda, per parafrasare Ian Malcolm, non è se possiamo farlo, ma se dovremmo .

Il primo dei principi di Tukey contro l'arroganza degli statistici afferma:

La combinazione di alcuni dati e un ardente desiderio di una risposta non garantisce che una risposta ragionevole possa essere estratta da un dato corpo di dati.

(Da "Sunset Salvo", The American Statistician 40 (1), 72-76, febbraio 1986)

L'imputazione non è in conflitto con essa?

Mi rendo conto che potrebbe essere solo la mia ignoranza a parlare, il che potrebbe rendere livido qualsiasi statistico che legga questo. Se è così, per favore illuminami. Apprezzerei anche i suggerimenti verso la letteratura pertinente. Finora ho letto solo il capitolo pertinente in "Analisi forestale in R" di Robinson. Saluti!

Risposte

1 spdrnl Aug 20 2020 at 01:04

Non c'è una risposta chiara qui. Il divertimento però è che si possono verificare gli effetti dell'imputazione utilizzando una procedura di validazione: lascia che siano i dati a decidere!

Si dovrebbe buttare via una funzionalità se mancano alcuni valori? O poi le osservazioni? E se quelle osservazioni contenessero informazioni preziose nelle altre funzionalità e il tuo algoritmo non fosse in grado di gestire i valori mancanti? E così via.

L'imputazione, come la rimozione di osservazioni o caratteristiche, è solo un modo per trattare i valori mancanti. La decisione di quale sia la migliore dovrebbe essere supportata da buone procedure macchina come la convalida (incrociata).