Validación cruzada anidada contra sobreajuste

En las tareas de aprendizaje automático, verificamos nuestros modelos con un conjunto de validación para que no se ajusten demasiado. De hecho, utilizamos el enfoque de validación cruzada para garantizar que este conjunto de validación cambie constantemente, a fin de no elegir el mejor modelo al sobreajustarlo indirectamente a un conjunto de validación fijo. Pero incluso si usamos la validación cruzada, es probable que nuestro modelo nos sorprenda dados los datos de prueba adicionales e invisibles. De hecho, algunas de las técnicas populares que usamos permiten que nuestro modelo tome algunas decisiones al sobreajustarse al conjunto de validación.
Los más populares son:
- Optimización de hiperparámetros
- Selección de características
- Detención anticipada
Cuando intenta encontrar un conjunto de características o parámetros óptimos para su modelo con los datos proporcionados usando K-Fold o cualquier esquema de validación cruzada, está alimentando indirectamente las características del conjunto de datos a su modelo. Por lo tanto, su modelo converge a un hiperparámetro o conjunto de funciones que funcionará bien en todo el conjunto de datos. Es probable que funcione mal en un escenario de datos no vistos.
Caso de detención anticipada
Mientras entrena su modelo con validación cruzada, finaliza el entrenamiento de su modelo anticipadamente mirando el conjunto de validación. De hecho, su modelo sobreajusta indirectamente la división de validación. Este esquema tampoco le permite simular el escenario de datos no vistos.
Validación cruzada anidada
Con la validación cruzada anidada, podrá realizar las dos aplicaciones que mencioné anteriormente nuevamente utilizando un esquema de validación cruzada, y también aprenderá el rendimiento de su modelo en datos no vistos.
Validación cruzada estándar
Normalmente, cuando intenta entrenar su modelo usando un esquema de validación cruzada, usaría un ciclo estándar como el que se muestra a continuación:
Pero este esquema tiene las debilidades que mencioné anteriormente.
Variante anidada

Repasemos la implementación:
- En primer lugar, implementamos el primer CV, al que llamamos CV externo. Este es el mismo enfoque de CV que usamos antes.
- Luego volvemos a dividir la parte del tren de este CV con otro CV. También podemos llamarlo CV interno. Aquí, en realidad aislamos la división de validación de nuestro CV externo del diagrama de CV interno.
- A partir de ahora, los datos de validación de nuestro CV externo se podrán contabilizar como datos no vistos para todas las operaciones que hagamos sobre el CV interno . Porque no hay posibilidad de ver esos datos en ningún pliegue interior del CV.
Es exactamente el mismo enfoque que describí anteriormente. Los modelos se entrenan con el CV interior. También se recopilan sus predicciones para las divisiones de validación del CV externo de validación. También puede obtener una puntuación promediando las puntuaciones de estas predicciones divididas de validación de CV externo, o puede combinarlas con el enfoque OOF para crear un vector de predicción de todos los datos que tiene.
Conclusión
Le conviene utilizar este enfoque de validación cruzada para cualquier problema en el que desee simular el rendimiento en datos no vistos tanto como sea posible. Porque cada enfoque ingenuo que incluye el ajuste o la detención anticipada hace que el rendimiento de su modelo esté sesgado en contra de los datos que utiliza.