ข้อมูลแบบตารางขนาดใหญ่ & AutoAI

Dec 01 2022
เขียนโดย: Lukasz Cmielowski, PhD, Thomas Parnell ใน Cloud Pak สำหรับ Data 4.6, Watson Studio AutoAI กำลังแนะนำการสนับสนุนสำหรับข้อมูลแบบตารางขนาดใหญ่

เขียนโดย: Lukasz Cmielowski, PhD , Thomas Parnell

ใน Cloud Pak สำหรับ Data 4.6 Watson Studio AutoAIกำลังแนะนำการรองรับข้อมูลแบบตารางขนาดใหญ่ มีการใช้ ชุดข้อมูลสูงสุด100 GBโดยใช้การผสมผสานระหว่างการรวมเข้าด้วยกันและการเรียนรู้เพิ่มเติม การใช้BatchedTreeEnsembleClassifierและBatchedTreeEnsembleRegressorจาก Snap Machine Learning ทำให้สามารถเพิ่มความสามารถ “ partial_fit() ” (การฝึกอบรมเกี่ยวกับแบทช์) ให้กับอัลกอริทึมแบบดั้งเดิม:

ลักษณนาม

  • ExtraTreesClassifier
  • XGBClassifier
  • LightGBMClassifier
  • RandomForestClassifier
  • SnapRandomForestClassifier
  • SnapBoostingMachineClassifier
  • ExtraTreesRegressor
  • LightGBMRegressor
  • RandomForestRegressor
  • SnapBoostingMachineRegressor
  • SnapRandomForestRegressor
  • XGBRegressor
ผังงานสถาปัตยกรรม BatchedTreeEnsemble
การเปรียบเทียบ BatchedTreeEnsemble บนชุดข้อมูล Criteo

เพิ่มตัวประมาณค่าทั้งมวลใหม่ (BatchedTreeEnsemble) ในรายการตัวประมาณค่า การทดสอบ AutoAI สร้างไปป์ไลน์ที่ 5 (BatchedTreeEnsemble) ต่อตัวประมาณค่าที่รองรับแต่ละตัว ไปป์ไลน์พิเศษนั้นมีpartial_fitความสามารถ สามารถฝึกอบรมเกี่ยวกับชุดข้อมูลได้ สมุดบันทึกที่สร้างขึ้นโดย AutoAI " สมุดบันทึกการเรียนรู้เพิ่มเติม " มีรหัสเพื่อฝึกอบรมแบบจำลองต่อไปโดยใช้ชุดข้อมูลทั้งหมด

การไหล

รองรับข้อมูลแบบตารางขนาดใหญ่ — โฟลว์

AutoAI ใช้ตัวอย่างข้อมูลเพื่อสร้างไปป์ไลน์ BatchedTreeEnsemble ผู้ใช้สามารถแก้ไขประเภทการสุ่มตัวอย่างได้ ประเภทการสุ่มตัวอย่างที่รองรับคือ: first values(อ่านข้อมูลตั้งแต่เริ่มต้นจนถึงจุดตัด) stratified,และ randomเทคนิคการสุ่มตัวอย่างเริ่มต้นถูกกำหนดrandomเป็น

จากนั้น AutoAI จะสร้างรหัสIncremental learning notebookที่มีรหัสเพื่อดำเนินการฝึกอบรมชุดข้อมูลทั้งหมดต่อไป

คอมพิวเตอร์พกพา

สมุดบันทึกที่สร้างขึ้นใช้ชื่อtorchที่เข้ากันได้ ตัวโหลดข้อมูลนี้สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆ เช่น DB2, PostgreSQL, Amazon S3, Snowflake และอื่นๆDataLoaderExperimentIterableDataset

ในขั้นตอนถัดไป โค้ดจะดาวน์โหลดโมเดล BatchedTreeEnsemble จากการทดสอบ AutoAI ที่เสร็จสมบูรณ์โดยใช้get_pipeline()เมธอด

สุดท้าย โมเดลจะได้รับการฝึกโดยใช้ชุดข้อมูลทั้งหมด ( partial_fit()) กราฟการเรียนรู้ ความสามารถในการปรับขนาด และประสิทธิภาพของแผนภูมิแบบจำลองจะแสดงขึ้น

โน้ตบุ๊กสามารถปรับแต่งได้อย่างง่ายดายเพื่อ:

  • ใช้ตัวโหลดข้อมูลอื่น (ต้องส่งคืนชุดข้อมูลเป็น Pandas DataFrames)
  • สนับสนุนฟังก์ชันผู้บันทึกคะแนนที่กำหนดเอง (เมตริก) ในระหว่างการฝึกซ้อมตามแบทช์
  • รวมถึงข้อจำกัดในการหยุดการเรียนรู้ (เช่น หยุดหากความแม่นยำของโมเดลถึงเกณฑ์ที่กำหนด)
  • ทำงานนอกระบบนิเวศของ Watson Studio (เช่น โครงสร้างพื้นฐานในเครื่อง)
  • รองรับชุดข้อมูลแบบตารางขนาดใหญ่โดยไม่ต้องใช้ทรัพยากรเพิ่มเติม
  • ตัวเลือกที่จะหยุดและดำเนินการฝึกอบรมต่อเมื่อใดก็ได้และทุกโครงสร้างพื้นฐาน
  • ความโปร่งใสและความยืดหยุ่นของขั้นตอนการฝึกอบรม
  • จำลองการจัดเก็บและการปรับใช้ด้วยโค้ดเพียงไม่กี่บรรทัด
  1. การเรียนรู้ของเครื่อง Snap
  2. เอกสาร Watson AutoAI
  3. สมุดบันทึกตัวอย่าง