Большие табличные данные и AutoAI

Dec 01 2022

автор: Лукаш Смиеловски, доктор философии, Томас Парнелл В Cloud Pak for Data 4.6 Watson Studio AutoAI представляет поддержку больших табличных данных.

авторы: Лукаш Цмеловски, доктор философии , Томас Парнелл

В Cloud Pak for Data 4.6 Watson Studio AutoAI представляет поддержку больших табличных данных . Наборы данных размером до 100 ГБ используются с использованием комбинации ансамбля и добавочного обучения. Принятие BatchedTreeEnsembleClassifier и BatchedTreeEnsembleRegressor от Snap Machine Learning позволяет добавлять возможности « partial_fit() » (обучение на пакетах) к классическим алгоритмам:

Классификаторы

ExtraTreeClassifier
XGBКлассификатор
LightGBMClassifier
Случайный ЛесКлассификатор
SnapRandomForestClassifier
SnapBoostingMachineClassifier

ExtraTreeRegressor
LightGBMРегрессор
RandomForestRegressor
SnapBoostingMachineRegressor
SnapRandomForestRegressor
XGBRegressor

Блок-схема архитектуры BatchedTreeEnsemble.

Сравнительный анализ BatchedTreeEnsemble на наборе данных Criteo.

В список оценок добавлены новые ансамблевые оценки (BatchedTreeEnsemble). Эксперимент AutoAI создает 5-й конвейер (BatchedTreeEnsemble) для каждого поддерживаемого оценщика. У этого дополнительного конвейера есть partial_fitвозможности; его можно обучать на пакетах данных. Созданная AutoAI записная книжка « Incremental Learning Notebook » содержит код для продолжения обучения модели с использованием всех пакетов данных.

Поток

Поддержка больших табличных данных — поток

AutoAI использует выборку данных для построения пайплайнов BatchedTreeEnsemble. Тип выборки может быть изменен пользователем. Поддерживаемые типы выборки: first values(чтение данных от начала до точки отсечки) stratified,и random. Метод выборки по умолчанию установлен на random.

Затем AutoAI создает файл Incremental learning notebook, содержащий код для продолжения обучения на всех пакетах данных.

Записная книжка

Сгенерированный блокнот использует torchсовместимый DataLoaderфайл ExperimentIterableDataset. Этот загрузчик данных может работать с различными источниками данных, такими как: DB2, PostgreSQL, Amazon S3, Snowflake и другими .

На следующем этапе код загружает модель BatchedTreeEnsemble из завершенного эксперимента AutoAI с помощью метода get_pipeline().

Наконец, модель обучается с использованием всех пакетов данных ( partial_fit()). Отображаются кривая обучения, масштабируемость и производительность модельных диаграмм.