Data tabular besar & AutoAI
ditulis oleh: Lukasz Cmielowski, PhD , Thomas Parnell

Di Cloud Pak untuk Data 4.6, Watson Studio AutoAI memperkenalkan dukungan untuk data tabular besar . Kumpulan data hingga 100 GB dikonsumsi menggunakan kombinasi ensembling dan pembelajaran inkremental. Adopsi BatchedTreeEnsembleClassifier dan BatchedTreeEnsembleRegressor dari Snap Machine Learning memungkinkan penambahan kemampuan “ partial_fit() ” (pelatihan pada batch) ke algoritme klasik:
Pengklasifikasi
- ExtraTreesClassifier
- XGBClassifier
- Pengklasifikasi LightGBM
- Pengklasifikasi HutanAcak
- SnapRandomForestClassifier
- Pengklasifikasi Mesin SnapBoosting
- ExtraTreesRegressor
- LightGBMRestor
- RandomForestRegressor
- SnapBoostingMachineRegressor
- SnapRandomForestRegressor
- XGBRegressor


Estimator ansambel baru (BatchedTreeEnsemble) telah ditambahkan ke daftar estimator. Eksperimen AutoAI menghasilkan pipeline ke-5 (BatchedTreeEnsemble) per setiap estimator yang didukung. Pipa ekstra itu memiliki partial_fit
kemampuan; itu dapat dilatih pada kumpulan data. Notebook yang dihasilkan AutoAI " Notebook pembelajaran tambahan " berisi kode untuk terus melatih model menggunakan semua kumpulan data.

Aliran

AutoAI menggunakan sampel data untuk membuat pipeline BatchedTreeEnsemble. Jenis pengambilan sampel dapat dimodifikasi oleh pengguna. Jenis pengambilan sampel yang didukung adalah: first values
(membaca data dari awal hingga titik batas), stratified,
dan random
. Teknik pengambilan sampel default diatur ke random
.
Selanjutnya, AutoAI menghasilkan Incremental learning notebook
yang berisi kode untuk melanjutkan pelatihan pada semua kumpulan data.
Buku catatan
Notebook yang dihasilkan menggunakan nama torch
yang kompatibel . Pemuat data ini dapat bekerja dengan berbagai sumber data seperti: DB2, PostgreSQL, Amazon S3, Snowflake, dan lainnya .DataLoader
ExperimentIterableDataset

Pada langkah selanjutnya, kode mengunduh model BatchedTreeEnsemble dari eksperimen AutoAI yang telah selesai menggunakan get_pipeline()
metode tersebut.

Terakhir, model dilatih menggunakan semua kumpulan data ( partial_fit()
). Kurva pembelajaran, skalabilitas, dan kinerja bagan model ditampilkan.

Notebook ini dapat dengan mudah disesuaikan untuk:
- gunakan pemuat data yang berbeda (harus mengembalikan kumpulan data sebagai Pandas DataFrames)
- mendukung fungsi pencetak gol khusus (metrik) selama pelatihan berbasis batch
- sertakan batasan penghentian pembelajaran (misalnya, hentikan jika akurasi model mencapai ambang tertentu)
- dijalankan di luar ekosistem Watson Studio (misalnya, infrastruktur lokal)
- Dukungan untuk kumpulan data tabular besar tanpa perlu sumber daya tambahan
- Opsi untuk berhenti dan melanjutkan pelatihan kapan saja dan di infrastruktur apa pun
- Transparansi penuh dan fleksibilitas prosedur pelatihan
- Penyimpanan dan penerapan model hanya dengan beberapa baris kode.
- Pembelajaran Mesin Jepret
- Dokumentasi Watson AutoAI
- Contoh buku catatan