ターゲットが歪んでいて高い値が少ない回帰問題を処理するにはどうすればよいですか?
Aug 17 2020
私は現在、歪んだターゲット変数(以下に表示)を使用して回帰問題に取り組んでいます。

当然、私の最初のアイデアは、線形回帰または決定木ベースのアルゴリズムの両方に役立つ可能性があるため、自然対数でターゲットを変換することでした。2番目のアイデアは、ターゲットをn個のグループにビニングした層化k分割交差検定と同様の検証スキームを準備することです。ただし、私の懸念は、最高値がほとんどないことです。

したがって、これらの4つの極値のいずれかが描画されているかどうかに関係なく、テストセットとすべての検証セットのエラーは大きく依存します。そのため、信頼できる真の誤差推定値を取得することは困難です。
その問題を処理するために私にできることは他にありますか?
回答
1 PredictedLife Aug 18 2020 at 02:50
適切な変換によって対称分布を生成できます。分布は主に右に歪んでいるため、log10変換が必要です。
自動ビニング方法を使用して、スパイクのダミー変数と組み合わせることもできます。
その後、特徴選択を実行すると、学習者は最も重要な特徴を自動的に選択します。XGBoostのような学習者は、多重共線性を自動的に処理します。