Bagaimana menangani masalah regresi dengan target miring dan hanya beberapa nilai tinggi?

Aug 17 2020

Saat ini saya menangani masalah regresi dengan variabel target miring (disajikan di bawah).

Secara alami, ide pertama saya adalah mengubah target dengan logaritma natural karena mungkin akan membantu regresi linier atau algoritma berbasis pohon keputusan. Ide kedua adalah menyiapkan skema validasi yang mirip dengan validasi silang k-fold bertingkat dengan target binned ke dalam n grup. Namun, kekhawatiran saya adalah saya hanya memiliki sedikit nilai tertinggi:

Oleh karena itu, set pengujian saya dan semua error set validasi sangat bergantung jika salah satu dari 4 nilai ekstrem ini ditempatkan di dalamnya atau tidak. Hal itu membuat sulit untuk mendapatkan estimasi kesalahan sebenarnya yang andal.

Apakah ada hal lain yang bisa saya lakukan untuk menangani masalah itu?

Jawaban

1 PredictedLife Aug 18 2020 at 02:50

Anda dapat menghasilkan distribusi simetris dengan transformasi yang sesuai: Distribusi Anda sebagian besar miring ke kanan, oleh karena itu diperlukan transformasi log10.

Anda juga dapat menggunakan metode auto-binning dan menggabungkannya dengan variabel dummy untuk lonjakan.

Jika Anda kemudian melakukan pemilihan fitur, pelajar akan secara otomatis memilih fitur yang paling signifikan. Pelajar seperti XGBoost secara otomatis menangani multikolinearitas.