トレインテストスプリットはいつ行うべきですか?
Aug 18 2020
機械学習は初めてです。私は基本的に、列車のテスト分割をいつ実行するかについて混乱しています。
以下の順序は正しいですか?
データ全体をトレーニングセットとテストセットに分割します
トレーニングデータから特徴を抽出する
分類モデルをトレーニングデータから抽出された特徴に適合させます
ステップ2で計算されたものと同じ特徴をテストデータから抽出します
ステップ3の近似モデルを、ステップ4のテストデータから抽出された特徴に適用して、モデルを評価します。
回答
6 gunes Aug 18 2020 at 21:24
あなたの手順は一般的に正しいです。より複雑なループでは、追加の操作には、検証、ハイパーパラメータの最適化、特徴選択などが含まれる場合があります。
通常、特徴抽出は探索的データ分析(EDA)に従います。ここでは、データを理解し、分析/要約し、直感的な結論を導き出します。EDAでは、必ずしもトレイン/テスト分割を行う必要はありません。
フィードバックループで手順2〜3を繰り返して、新しく抽出された特徴(交互作用変数など)がモデルに役立つかどうかをテストする場合は、検証手順が必要になることに注意してください。