Когда мне следует пройти тренировочный тестовый сплит?
Я новичок в машинном обучении. Я в основном не понимаю, когда проводить тестовый сплит поезд.
Правильный ли порядок, указанный ниже?
Разделите все данные на обучающий и тестовый набор
Извлечение функций из данных обучения
Подгоните модель классификации к функциям, извлеченным из данных обучения
Извлеките те же функции, которые были вычислены на шаге 2, из тестовых данных.
Примените подобранную модель на шаге 3 к функциям, извлеченным из тестовых данных на шаге 4, чтобы оценить модель.
Ответы
Ваша процедура в целом верна. В более сложном цикле дополнительные операции могут включать проверку, оптимизацию гиперпараметров, выбор функций и т. Д.
Как правило, извлечение признаков следует за исследовательским анализом данных (EDA), когда вы узнаете свои данные, анализируете / обобщаете их, делаете интуитивные выводы. В EDA вам не обязательно проводить разделение на тренировку / тест.
Обратите внимание: если вы повторяете шаги 2-3 в цикле обратной связи, чтобы проверить, полезны ли недавно извлеченные функции (например, переменные взаимодействия) для модели, вам понадобится этап проверки.