トレインテストスプリットはいつ行うべきですか?

Aug 18 2020

機械学習は初めてです。私は基本的に、列車のテスト分割をいつ実行するかについて混乱しています。

以下の順序は正しいですか?

  1. データ全体をトレーニングセットとテストセットに分割します

  2. トレーニングデータから特徴を抽出する

  3. 分類モデルをトレーニングデータから抽出された特徴に適合させます

  4. ステップ2で計算されたものと同じ特徴をテストデータから抽出します

  5. ステップ3の近似モデルを、ステップ4のテストデータから抽出された特徴に適用して、モデルを評価します。

回答

6 gunes Aug 18 2020 at 21:24

あなたの手順は一般的に正しいです。より複雑なループでは、追加の操作には、検証、ハイパーパラメータの最適化、特徴選択などが含まれる場合があります。

通常、特徴抽出は探索的データ分析(EDA)に従います。ここでは、データを理解し、分析/要約し、直感的な結論を導き出します。EDAでは、必ずしもトレイン/テスト分割を行う必要はありません。

フィードバックループで手順2〜3を繰り返して、新しく抽出された特徴(交互作用変数など)がモデルに役立つかどうかをテストする場合は、検証手順が必要になることに注意してください。