Большие табличные данные и AutoAI
авторы: Лукаш Цмеловски, доктор философии , Томас Парнелл

В Cloud Pak for Data 4.6 Watson Studio AutoAI представляет поддержку больших табличных данных . Наборы данных размером до 100 ГБ используются с использованием комбинации ансамбля и добавочного обучения. Принятие BatchedTreeEnsembleClassifier и BatchedTreeEnsembleRegressor от Snap Machine Learning позволяет добавлять возможности « partial_fit() » (обучение на пакетах) к классическим алгоритмам:
Классификаторы
- ExtraTreeClassifier
- XGBКлассификатор
- LightGBMClassifier
- Случайный ЛесКлассификатор
- SnapRandomForestClassifier
- SnapBoostingMachineClassifier
- ExtraTreeRegressor
- LightGBMРегрессор
- RandomForestRegressor
- SnapBoostingMachineRegressor
- SnapRandomForestRegressor
- XGBRegressor


В список оценок добавлены новые ансамблевые оценки (BatchedTreeEnsemble). Эксперимент AutoAI создает 5-й конвейер (BatchedTreeEnsemble) для каждого поддерживаемого оценщика. У этого дополнительного конвейера есть partial_fit
возможности; его можно обучать на пакетах данных. Созданная AutoAI записная книжка « Incremental Learning Notebook » содержит код для продолжения обучения модели с использованием всех пакетов данных.

Поток

AutoAI использует выборку данных для построения пайплайнов BatchedTreeEnsemble. Тип выборки может быть изменен пользователем. Поддерживаемые типы выборки: first values
(чтение данных от начала до точки отсечки) stratified,
и random
. Метод выборки по умолчанию установлен на random
.
Затем AutoAI создает файл Incremental learning notebook
, содержащий код для продолжения обучения на всех пакетах данных.
Записная книжка
Сгенерированный блокнот использует torch
совместимый DataLoader
файл ExperimentIterableDataset
. Этот загрузчик данных может работать с различными источниками данных, такими как: DB2, PostgreSQL, Amazon S3, Snowflake и другими .

На следующем этапе код загружает модель BatchedTreeEnsemble из завершенного эксперимента AutoAI с помощью метода get_pipeline()
.

Наконец, модель обучается с использованием всех пакетов данных ( partial_fit()
). Отображаются кривая обучения, масштабируемость и производительность модельных диаграмм.

Блокнот можно легко настроить для:
- использовать другой загрузчик данных (должен возвращать пакеты данных в виде Pandas DataFrames)
- поддержка пользовательской функции подсчета очков (показателей) во время пакетного обучения
- включать ограничения остановки обучения (например, останавливаться, если точность модели достигает определенного порога)
- запускаться вне экосистемы Watson Studio (например, в локальной инфраструктуре)
- Поддержка большого набора табличных данных без необходимости дополнительных ресурсов
- Возможность остановить и продолжить обучение в любое время и на любой инфраструктуре
- Полная прозрачность и гибкость процедуры обучения
- Смоделируйте хранение и развертывание всего несколькими строками кода.
- Привязать машинное обучение
- Документация Watson AutoAI
- Образцы тетрадей