Когда мне следует пройти тренировочный тестовый сплит?

Aug 18 2020

Я новичок в машинном обучении. Я в основном не понимаю, когда проводить тестовый сплит поезд.

Правильный ли порядок, указанный ниже?

  1. Разделите все данные на обучающий и тестовый набор

  2. Извлечение функций из данных обучения

  3. Подгоните модель классификации к функциям, извлеченным из данных обучения

  4. Извлеките те же функции, которые были вычислены на шаге 2, из тестовых данных.

  5. Примените подобранную модель на шаге 3 к функциям, извлеченным из тестовых данных на шаге 4, чтобы оценить модель.

Ответы

6 gunes Aug 18 2020 at 21:24

Ваша процедура в целом верна. В более сложном цикле дополнительные операции могут включать проверку, оптимизацию гиперпараметров, выбор функций и т. Д.

Как правило, извлечение признаков следует за исследовательским анализом данных (EDA), когда вы узнаете свои данные, анализируете / обобщаете их, делаете интуитивные выводы. В EDA вам не обязательно проводить разделение на тренировку / тест.

Обратите внимание: если вы повторяете шаги 2-3 в цикле обратной связи, чтобы проверить, полезны ли недавно извлеченные функции (например, переменные взаимодействия) для модели, вам понадобится этап проверки.