Grandes datos tabulares y AutoAI

Dec 01 2022
escrito por: Lukasz Cmielowski, PhD, Thomas Parnell En Cloud Pak for Data 4.6, Watson Studio AutoAI presenta soporte para grandes datos tabulares.

escrito por: Lukasz Cmielowski, PhD , Thomas Parnell

En Cloud Pak for Data 4.6, Watson Studio AutoAI presenta soporte para grandes datos tabulares . Los conjuntos de datos de hasta 100 GB se consumen mediante la combinación de ensamblaje y aprendizaje incremental. La adopción de BatchedTreeEnsembleClassifier y BatchedTreeEnsembleRegressor de Snap Machine Learning permite agregar capacidades de " partial_fit() " (entrenamiento en lotes) a los algoritmos clásicos:

Clasificadores

  • ExtraTreesClassifier
  • Clasificador XGB
  • LightGBMClassifier
  • RandomForestClassifier
  • SnapRandomForestClasificador
  • SnapBoostingMachineClasificador
  • ExtraTreesRegresor
  • LightGBMRegressor
  • RandomForestRegresor
  • SnapBoostingMachineRegressor
  • SnapRandomForestRegresor
  • XGBRegresor
Diagrama de flujo de la arquitectura BatchedTreeEnsemble.
Evaluación comparativa de BatchedTreeEnsemble en el conjunto de datos de Criteo.

Se han agregado nuevos estimadores de conjunto (BatchedTreeEnsemble) a la lista de estimadores. El experimento AutoAI produce una quinta canalización (BatchedTreeEnsemble) por cada estimador compatible. Esa canalización adicional tiene partial_fitcapacidades; se puede entrenar en lotes de datos. El cuaderno generado por AutoAI " Cuaderno de aprendizaje incremental " contiene el código para seguir entrenando el modelo utilizando todos los lotes de datos.

El flujo

Gran soporte de datos tabulares: el flujo

AutoAI usa una muestra de datos para construir las canalizaciones BatchedTreeEnsemble. El usuario puede modificar el tipo de muestreo. Los tipos de muestreo soportados son: first values(leyendo los datos desde el principio hasta el punto de corte), stratified,y random. La técnica de muestreo predeterminada se establece en random.

Luego, AutoAI produce el Incremental learning notebookque contiene el código para continuar con el entrenamiento en todos los lotes de datos.

El cuaderno

El cuaderno generado utiliza un torchcompatible DataLoaderllamado ExperimentIterableDataset. Este cargador de datos puede funcionar con varias fuentes de datos como: DB2, PostgreSQL, Amazon S3, Snowflake y más .

En el siguiente paso, el código descarga el modelo BatchedTreeEnsemble del experimento de AutoAI completado usando el get_pipeline()método.

Finalmente, el modelo se entrena utilizando todos los lotes de datos ( partial_fit()). Se muestran la curva de aprendizaje, la escalabilidad y el rendimiento de los gráficos del modelo.

El cuaderno se puede personalizar fácilmente para:

  • use un cargador de datos diferente (debe devolver lotes de datos como Pandas DataFrames)
  • admitir la función de marcador personalizado (métricas) durante el entrenamiento basado en lotes
  • incluir restricciones de parada de aprendizaje (p. ej., detenerse si la precisión del modelo alcanza un umbral específico)
  • ejecutarse fuera del ecosistema de Watson Studio (p. ej., infraestructura local)
  • Compatibilidad con grandes conjuntos de datos tabulares sin necesidad de recursos adicionales
  • Opción de parar y continuar entrenando en cualquier momento y cualquier infraestructura
  • Transparencia total y flexibilidad del procedimiento de formación
  • Modele el almacenamiento y la implementación con solo unas pocas líneas de código.
  1. Aprendizaje automático instantáneo
  2. Documentación de Watson AutoAI
  3. Cuadernos de muestra