Come gestire un problema di regressione con target distorto e solo pochi valori elevati?
Attualmente sto affrontando un problema di regressione con la variabile target distorta (presentata di seguito).

Naturalmente, la mia prima idea è stata quella di trasformare l'obiettivo con il logaritmo naturale poiché probabilmente aiuterà sia la regressione lineare che gli algoritmi basati sull'albero delle decisioni. La seconda idea è quella di preparare uno schema di convalida simile alla convalida incrociata stratificata k-fold con target raggruppato in n gruppi. Tuttavia, la mia preoccupazione è che ho solo pochi valori più alti:

Pertanto, il mio set di test e tutti gli errori dei set di convalida dipendono fortemente dal fatto che uno di questi 4 valori estremi venga inserito o meno al loro interno. Ciò rende difficile ottenere una stima affidabile dell'errore vero.
C'è qualcos'altro che posso fare per gestire questo problema?
Risposte
È possibile generare una o più distribuzioni simmetriche mediante una trasformazione adeguata: la distribuzione è principalmente asimmetrica a destra, pertanto è necessaria una trasformazione log10.
Puoi anche utilizzare un metodo di raccolta automatica e combinarlo con variabili fittizie per i picchi.
Se poi esegui una selezione delle caratteristiche, lo studente sceglierà automaticamente le caratteristiche più significative. Gli studenti come XGBoost si occupano automaticamente della multicollinearità.