ข้อมูลแบบตารางขนาดใหญ่ & AutoAI

Dec 01 2022

เขียนโดย: Lukasz Cmielowski, PhD, Thomas Parnell ใน Cloud Pak สำหรับ Data 4.6, Watson Studio AutoAI กำลังแนะนำการสนับสนุนสำหรับข้อมูลแบบตารางขนาดใหญ่

เขียนโดย: Lukasz Cmielowski, PhD , Thomas Parnell

ใน Cloud Pak สำหรับ Data 4.6 Watson Studio AutoAIกำลังแนะนำการรองรับข้อมูลแบบตารางขนาดใหญ่ มีการใช้ ชุดข้อมูลสูงสุด100 GBโดยใช้การผสมผสานระหว่างการรวมเข้าด้วยกันและการเรียนรู้เพิ่มเติม การใช้BatchedTreeEnsembleClassifierและBatchedTreeEnsembleRegressorจาก Snap Machine Learning ทำให้สามารถเพิ่มความสามารถ “ partial_fit() ” (การฝึกอบรมเกี่ยวกับแบทช์) ให้กับอัลกอริทึมแบบดั้งเดิม:

ลักษณนาม

ExtraTreesClassifier
XGBClassifier
LightGBMClassifier
RandomForestClassifier
SnapRandomForestClassifier
SnapBoostingMachineClassifier

ExtraTreesRegressor
LightGBMRegressor
RandomForestRegressor
SnapBoostingMachineRegressor
SnapRandomForestRegressor
XGBRegressor

ผังงานสถาปัตยกรรม BatchedTreeEnsemble

การเปรียบเทียบ BatchedTreeEnsemble บนชุดข้อมูล Criteo

เพิ่มตัวประมาณค่าทั้งมวลใหม่ (BatchedTreeEnsemble) ในรายการตัวประมาณค่า การทดสอบ AutoAI สร้างไปป์ไลน์ที่ 5 (BatchedTreeEnsemble) ต่อตัวประมาณค่าที่รองรับแต่ละตัว ไปป์ไลน์พิเศษนั้นมีpartial_fitความสามารถ สามารถฝึกอบรมเกี่ยวกับชุดข้อมูลได้ สมุดบันทึกที่สร้างขึ้นโดย AutoAI " สมุดบันทึกการเรียนรู้เพิ่มเติม " มีรหัสเพื่อฝึกอบรมแบบจำลองต่อไปโดยใช้ชุดข้อมูลทั้งหมด

การไหล

รองรับข้อมูลแบบตารางขนาดใหญ่ — โฟลว์

AutoAI ใช้ตัวอย่างข้อมูลเพื่อสร้างไปป์ไลน์ BatchedTreeEnsemble ผู้ใช้สามารถแก้ไขประเภทการสุ่มตัวอย่างได้ ประเภทการสุ่มตัวอย่างที่รองรับคือ: first values(อ่านข้อมูลตั้งแต่เริ่มต้นจนถึงจุดตัด) stratified,และ randomเทคนิคการสุ่มตัวอย่างเริ่มต้นถูกกำหนดrandomเป็น

จากนั้น AutoAI จะสร้างรหัสIncremental learning notebookที่มีรหัสเพื่อดำเนินการฝึกอบรมชุดข้อมูลทั้งหมดต่อไป

คอมพิวเตอร์พกพา

สมุดบันทึกที่สร้างขึ้นใช้ชื่อtorchที่เข้ากันได้ ตัวโหลดข้อมูลนี้สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆ เช่น DB2, PostgreSQL, Amazon S3, Snowflake และอื่นๆDataLoaderExperimentIterableDataset

ในขั้นตอนถัดไป โค้ดจะดาวน์โหลดโมเดล BatchedTreeEnsemble จากการทดสอบ AutoAI ที่เสร็จสมบูรณ์โดยใช้get_pipeline()เมธอด

สุดท้าย โมเดลจะได้รับการฝึกโดยใช้ชุดข้อมูลทั้งหมด ( partial_fit()) กราฟการเรียนรู้ ความสามารถในการปรับขนาด และประสิทธิภาพของแผนภูมิแบบจำลองจะแสดงขึ้น

ข้อมูลแบบตารางขนาดใหญ่ &amp; AutoAI

ลักษณนาม

การไหล

คอมพิวเตอร์พกพา

ข้อมูลแบบตารางขนาดใหญ่ & AutoAI