¿Cuándo debo hacer la prueba de tren dividida?

Aug 18 2020

Soy nuevo en el aprendizaje automático. Básicamente estoy confundido sobre cuándo realizar la división de prueba de tren.

¿Es correcto el orden indicado a continuación?

  1. Divida todos los datos en conjuntos de entrenamiento y prueba

  2. Extraer funciones de los datos de entrenamiento

  3. Ajustar el modelo de clasificación a las características extraídas de los datos de entrenamiento

  4. Extraiga las mismas características, que se calcularon en el paso 2, de los datos de prueba

  5. Aplicar el modelo ajustado en el paso 3 a las características extraídas de los datos de prueba en el paso 4 para evaluar el modelo

Respuestas

6 gunes Aug 18 2020 at 21:24

Su procedimiento es correcto en general. En un ciclo más complejo, las operaciones adicionales pueden incluir validación, optimización de hiperparámetros, selección de características, etc.

Por lo general, la extracción de características sigue al análisis de datos exploratorios (EDA), donde puede conocer sus datos, analizarlos / resumirlos y sacar conclusiones intuitivas. En EDA, no necesariamente hace una división de tren / prueba.

Tenga en cuenta que, si repite los pasos 2-3 en un ciclo de retroalimentación para probar si las características recién extraídas (por ejemplo, variables de interacción) son útiles para el modelo o no, necesitará un paso de validación.