Большие табличные данные и AutoAI

Dec 01 2022
автор: Лукаш Смиеловски, доктор философии, Томас Парнелл В Cloud Pak for Data 4.6 Watson Studio AutoAI представляет поддержку больших табличных данных.

авторы: Лукаш Цмеловски, доктор философии , Томас Парнелл

В Cloud Pak for Data 4.6 Watson Studio AutoAI представляет поддержку больших табличных данных . Наборы данных размером до 100 ГБ используются с использованием комбинации ансамбля и добавочного обучения. Принятие BatchedTreeEnsembleClassifier и BatchedTreeEnsembleRegressor от Snap Machine Learning позволяет добавлять возможности « partial_fit() » (обучение на пакетах) к классическим алгоритмам:

Классификаторы

  • ExtraTreeClassifier
  • XGBКлассификатор
  • LightGBMClassifier
  • Случайный ЛесКлассификатор
  • SnapRandomForestClassifier
  • SnapBoostingMachineClassifier
  • ExtraTreeRegressor
  • LightGBMРегрессор
  • RandomForestRegressor
  • SnapBoostingMachineRegressor
  • SnapRandomForestRegressor
  • XGBRegressor
Блок-схема архитектуры BatchedTreeEnsemble.
Сравнительный анализ BatchedTreeEnsemble на наборе данных Criteo.

В список оценок добавлены новые ансамблевые оценки (BatchedTreeEnsemble). Эксперимент AutoAI создает 5-й конвейер (BatchedTreeEnsemble) для каждого поддерживаемого оценщика. У этого дополнительного конвейера есть partial_fitвозможности; его можно обучать на пакетах данных. Созданная AutoAI записная книжка « Incremental Learning Notebook » содержит код для продолжения обучения модели с использованием всех пакетов данных.

Поток

Поддержка больших табличных данных — поток

AutoAI использует выборку данных для построения пайплайнов BatchedTreeEnsemble. Тип выборки может быть изменен пользователем. Поддерживаемые типы выборки: first values(чтение данных от начала до точки отсечки) stratified,и random. Метод выборки по умолчанию установлен на random.

Затем AutoAI создает файл Incremental learning notebook, содержащий код для продолжения обучения на всех пакетах данных.

Записная книжка

Сгенерированный блокнот использует torchсовместимый DataLoaderфайл ExperimentIterableDataset. Этот загрузчик данных может работать с различными источниками данных, такими как: DB2, PostgreSQL, Amazon S3, Snowflake и другими .

На следующем этапе код загружает модель BatchedTreeEnsemble из завершенного эксперимента AutoAI с помощью метода get_pipeline().

Наконец, модель обучается с использованием всех пакетов данных ( partial_fit()). Отображаются кривая обучения, масштабируемость и производительность модельных диаграмм.

Блокнот можно легко настроить для:

  • использовать другой загрузчик данных (должен возвращать пакеты данных в виде Pandas DataFrames)
  • поддержка пользовательской функции подсчета очков (показателей) во время пакетного обучения
  • включать ограничения остановки обучения (например, останавливаться, если точность модели достигает определенного порога)
  • запускаться вне экосистемы Watson Studio (например, в локальной инфраструктуре)
  • Поддержка большого набора табличных данных без необходимости дополнительных ресурсов
  • Возможность остановить и продолжить обучение в любое время и на любой инфраструктуре
  • Полная прозрачность и гибкость процедуры обучения
  • Смоделируйте хранение и развертывание всего несколькими строками кода.
  1. Привязать машинное обучение
  2. Документация Watson AutoAI
  3. Образцы тетрадей