ข้อมูลแบบตารางขนาดใหญ่ & AutoAI
เขียนโดย: Lukasz Cmielowski, PhD , Thomas Parnell

ใน Cloud Pak สำหรับ Data 4.6 Watson Studio AutoAIกำลังแนะนำการรองรับข้อมูลแบบตารางขนาดใหญ่ มีการใช้ ชุดข้อมูลสูงสุด100 GBโดยใช้การผสมผสานระหว่างการรวมเข้าด้วยกันและการเรียนรู้เพิ่มเติม การใช้BatchedTreeEnsembleClassifierและBatchedTreeEnsembleRegressorจาก Snap Machine Learning ทำให้สามารถเพิ่มความสามารถ “ partial_fit() ” (การฝึกอบรมเกี่ยวกับแบทช์) ให้กับอัลกอริทึมแบบดั้งเดิม:
ลักษณนาม
- ExtraTreesClassifier
- XGBClassifier
- LightGBMClassifier
- RandomForestClassifier
- SnapRandomForestClassifier
- SnapBoostingMachineClassifier
- ExtraTreesRegressor
- LightGBMRegressor
- RandomForestRegressor
- SnapBoostingMachineRegressor
- SnapRandomForestRegressor
- XGBRegressor


เพิ่มตัวประมาณค่าทั้งมวลใหม่ (BatchedTreeEnsemble) ในรายการตัวประมาณค่า การทดสอบ AutoAI สร้างไปป์ไลน์ที่ 5 (BatchedTreeEnsemble) ต่อตัวประมาณค่าที่รองรับแต่ละตัว ไปป์ไลน์พิเศษนั้นมีpartial_fit
ความสามารถ สามารถฝึกอบรมเกี่ยวกับชุดข้อมูลได้ สมุดบันทึกที่สร้างขึ้นโดย AutoAI " สมุดบันทึกการเรียนรู้เพิ่มเติม " มีรหัสเพื่อฝึกอบรมแบบจำลองต่อไปโดยใช้ชุดข้อมูลทั้งหมด

การไหล

AutoAI ใช้ตัวอย่างข้อมูลเพื่อสร้างไปป์ไลน์ BatchedTreeEnsemble ผู้ใช้สามารถแก้ไขประเภทการสุ่มตัวอย่างได้ ประเภทการสุ่มตัวอย่างที่รองรับคือ: first values
(อ่านข้อมูลตั้งแต่เริ่มต้นจนถึงจุดตัด) stratified,
และ random
เทคนิคการสุ่มตัวอย่างเริ่มต้นถูกกำหนดrandom
เป็น
จากนั้น AutoAI จะสร้างรหัสIncremental learning notebook
ที่มีรหัสเพื่อดำเนินการฝึกอบรมชุดข้อมูลทั้งหมดต่อไป
คอมพิวเตอร์พกพา
สมุดบันทึกที่สร้างขึ้นใช้ชื่อtorch
ที่เข้ากันได้ ตัวโหลดข้อมูลนี้สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆ เช่น DB2, PostgreSQL, Amazon S3, Snowflake และอื่นๆDataLoader
ExperimentIterableDataset

ในขั้นตอนถัดไป โค้ดจะดาวน์โหลดโมเดล BatchedTreeEnsemble จากการทดสอบ AutoAI ที่เสร็จสมบูรณ์โดยใช้get_pipeline()
เมธอด

สุดท้าย โมเดลจะได้รับการฝึกโดยใช้ชุดข้อมูลทั้งหมด ( partial_fit()
) กราฟการเรียนรู้ ความสามารถในการปรับขนาด และประสิทธิภาพของแผนภูมิแบบจำลองจะแสดงขึ้น

โน้ตบุ๊กสามารถปรับแต่งได้อย่างง่ายดายเพื่อ:
- ใช้ตัวโหลดข้อมูลอื่น (ต้องส่งคืนชุดข้อมูลเป็น Pandas DataFrames)
- สนับสนุนฟังก์ชันผู้บันทึกคะแนนที่กำหนดเอง (เมตริก) ในระหว่างการฝึกซ้อมตามแบทช์
- รวมถึงข้อจำกัดในการหยุดการเรียนรู้ (เช่น หยุดหากความแม่นยำของโมเดลถึงเกณฑ์ที่กำหนด)
- ทำงานนอกระบบนิเวศของ Watson Studio (เช่น โครงสร้างพื้นฐานในเครื่อง)
- รองรับชุดข้อมูลแบบตารางขนาดใหญ่โดยไม่ต้องใช้ทรัพยากรเพิ่มเติม
- ตัวเลือกที่จะหยุดและดำเนินการฝึกอบรมต่อเมื่อใดก็ได้และทุกโครงสร้างพื้นฐาน
- ความโปร่งใสและความยืดหยุ่นของขั้นตอนการฝึกอบรม
- จำลองการจัดเก็บและการปรับใช้ด้วยโค้ดเพียงไม่กี่บรรทัด
- การเรียนรู้ของเครื่อง Snap
- เอกสาร Watson AutoAI
- สมุดบันทึกตัวอย่าง