Große tabellarische Daten & AutoAI
geschrieben von: Lukasz Cmielowski, PhD , Thomas Parnell
In Cloud Pak for Data 4.6 führt Watson Studio AutoAI Unterstützung für große tabellarische Daten ein . Durch die Kombination von Ensembling und inkrementellem Lernen werden Datensätze bis zu 100 GB verbraucht. Die Übernahme von BatchedTreeEnsembleClassifier und BatchedTreeEnsembleRegressor von Snap Machine Learning ermöglicht das Hinzufügen von „ partial_fit() “-Fähigkeiten (Training auf Batches) zu klassischen Algorithmen:
Klassifikatoren
- ExtraTreesClassifier
- XGBClassifier
- LightGBMClassifier
- RandomForestClassifier
- SnapRandomForestClassifier
- SnapBoostingMachineClassifier
- ExtraTreesRegressor
- LightGBMRegressor
- RandomForestRegressor
- SnapBoostingMachineRegressor
- SnapRandomForestRegressor
- XGBRegressor
Neue Ensemble-Schätzer (BatchedTreeEnsemble) wurden der Liste der Schätzer hinzugefügt. Das AutoAI-Experiment erzeugt eine fünfte Pipeline (BatchedTreeEnsemble) für jeden unterstützten Schätzer. Diese zusätzliche Pipeline hat partial_fitFähigkeiten; Es kann mit Datenstapeln trainiert werden. Das von AutoAI generierte Notizbuch „ Inkrementelles Lernnotizbuch “ enthält den Code, um das Modell mit allen Datenstapeln weiter zu trainieren.
Der Fluss
AutoAI verwendet eine Stichprobe von Daten, um die BatchedTreeEnsemble-Pipelines zu erstellen. Der Probenahmetyp kann vom Benutzer geändert werden. Die unterstützten Sampling-Typen sind: first values(Lesen der Daten vom Anfang bis zum Cutoff-Punkt) stratified,und random. Die Standard-Sampling-Technik ist auf eingestellt random.
Als Nächstes erstellt AutoAI die Incremental learning notebook, die den Code enthält, um das Training für alle Datenstapel fortzusetzen.
Das Notebook
Das generierte Notizbuch verwendet eine torchkompatible DataLoadernamens ExperimentIterableDataset. Dieser Datenlader kann mit verschiedenen Datenquellen wie DB2, PostgreSQL, Amazon S3, Snowflake und mehr arbeiten .
Im nächsten Schritt lädt der Code mithilfe der get_pipeline()Methode das BatchedTreeEnsemble-Modell aus dem abgeschlossenen AutoAI-Experiment herunter.
Abschließend wird das Modell mit allen Datenstapeln trainiert ( partial_fit()). Lernkurve, Skalierbarkeit und Leistung von Modelldiagrammen werden angezeigt.
Das Notizbuch kann einfach angepasst werden an:
- Verwenden Sie einen anderen Datenlader (muss Datenstapel als Pandas DataFrames zurückgeben)
- Unterstützung der benutzerdefinierten Scorer-Funktion (Metriken) während des Batch-basierten Trainings
- Lernstoppbeschränkungen einbeziehen (z. B. stoppen, wenn die Modellgenauigkeit einen bestimmten Schwellenwert erreicht)
- außerhalb des Watson Studio-Ökosystems ausgeführt werden (z. B. lokale Infrastruktur)
- Unterstützung für große tabellarische Datensätze ohne zusätzliche Ressourcen
- Möglichkeit, das Training jederzeit und bei jeder Infrastruktur zu unterbrechen und fortzusetzen
- Volle Transparenz und Flexibilität des Trainingsablaufs
- Modellspeicherung und -bereitstellung mit nur wenigen Codezeilen.
- Snap Machine Learning
- Watson AutoAI-Dokumentation
- Musterhefte

![Was ist überhaupt eine verknüpfte Liste? [Teil 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































