Eğri hedef ve yalnızca birkaç yüksek değerle bir regresyon sorunu nasıl çözülür?

Aug 17 2020

Şu anda çarpık hedef değişkenle (aşağıda sunulmuştur) bir regresyon problemiyle uğraşıyorum.

Doğal olarak, ilk fikrim hedefi, muhtemelen hem doğrusal regresyona hem de karar ağacı tabanlı algoritmalara yardımcı olacağı için doğal logaritma ile dönüştürmekti. İkinci fikir, n gruba ayrılmış hedef ile katmanlı k-kat çapraz doğrulamaya benzer bir doğrulama şeması hazırlamaktır. Ancak benim endişem, yalnızca birkaç en yüksek değerim olması:

Bu nedenle, test setim ve tüm doğrulama seti hataları, bu 4 uç değerden birinin içine yerleştirilip yerleştirilmemesine büyük ölçüde bağımlıdır. Bu, güvenilir gerçek hata tahmini elde etmeyi zorlaştırır.

Bu sorunu çözmek için yapabileceğim başka bir şey var mı?

Yanıtlar

1 PredictedLife Aug 18 2020 at 02:50

Uygun dönüştürme ile simetrik dağılım (lar) üretebilirsiniz: Dağıtımınız esas olarak sağa eğiktir, bu nedenle bir log10 dönüşümü gereklidir.

Ayrıca bir otomatik binning yöntemi kullanabilir ve bunu ani artışlar için kukla değişkenlerle birleştirebilirsiniz.

Daha sonra bir özellik seçimi yaparsanız, öğrenci otomatik olarak en önemli özellikleri seçecektir. XGBoost gibi öğrenciler, çoklu bağlantı ile otomatik olarak ilgilenirler.