¿Cuándo debo hacer la prueba de tren dividida?
Soy nuevo en el aprendizaje automático. Básicamente estoy confundido sobre cuándo realizar la división de prueba de tren.
¿Es correcto el orden indicado a continuación?
Divida todos los datos en conjuntos de entrenamiento y prueba
Extraer funciones de los datos de entrenamiento
Ajustar el modelo de clasificación a las características extraídas de los datos de entrenamiento
Extraiga las mismas características, que se calcularon en el paso 2, de los datos de prueba
Aplicar el modelo ajustado en el paso 3 a las características extraídas de los datos de prueba en el paso 4 para evaluar el modelo
Respuestas
Su procedimiento es correcto en general. En un ciclo más complejo, las operaciones adicionales pueden incluir validación, optimización de hiperparámetros, selección de características, etc.
Por lo general, la extracción de características sigue al análisis de datos exploratorios (EDA), donde puede conocer sus datos, analizarlos / resumirlos y sacar conclusiones intuitivas. En EDA, no necesariamente hace una división de tren / prueba.
Tenga en cuenta que, si repite los pasos 2-3 en un ciclo de retroalimentación para probar si las características recién extraídas (por ejemplo, variables de interacción) son útiles para el modelo o no, necesitará un paso de validación.