ข้อมูลแบบตารางขนาดใหญ่ & AutoAI
เขียนโดย: Lukasz Cmielowski, PhD , Thomas Parnell
![](https://post.nghiatu.com/assets/images/m/max/724/1*10v08Z9EZiyS91rtLsRInw.png)
ใน Cloud Pak สำหรับ Data 4.6 Watson Studio AutoAIกำลังแนะนำการรองรับข้อมูลแบบตารางขนาดใหญ่ มีการใช้ ชุดข้อมูลสูงสุด100 GBโดยใช้การผสมผสานระหว่างการรวมเข้าด้วยกันและการเรียนรู้เพิ่มเติม การใช้BatchedTreeEnsembleClassifierและBatchedTreeEnsembleRegressorจาก Snap Machine Learning ทำให้สามารถเพิ่มความสามารถ “ partial_fit() ” (การฝึกอบรมเกี่ยวกับแบทช์) ให้กับอัลกอริทึมแบบดั้งเดิม:
ลักษณนาม
- ExtraTreesClassifier
- XGBClassifier
- LightGBMClassifier
- RandomForestClassifier
- SnapRandomForestClassifier
- SnapBoostingMachineClassifier
- ExtraTreesRegressor
- LightGBMRegressor
- RandomForestRegressor
- SnapBoostingMachineRegressor
- SnapRandomForestRegressor
- XGBRegressor
![](https://post.nghiatu.com/assets/images/m/max/724/1*qStvoED4djMGCMfz8tTRXA.png)
![](https://post.nghiatu.com/assets/images/m/max/724/1*kDGZYucaHLgvUM3wD0f6fg.png)
เพิ่มตัวประมาณค่าทั้งมวลใหม่ (BatchedTreeEnsemble) ในรายการตัวประมาณค่า การทดสอบ AutoAI สร้างไปป์ไลน์ที่ 5 (BatchedTreeEnsemble) ต่อตัวประมาณค่าที่รองรับแต่ละตัว ไปป์ไลน์พิเศษนั้นมีpartial_fit
ความสามารถ สามารถฝึกอบรมเกี่ยวกับชุดข้อมูลได้ สมุดบันทึกที่สร้างขึ้นโดย AutoAI " สมุดบันทึกการเรียนรู้เพิ่มเติม " มีรหัสเพื่อฝึกอบรมแบบจำลองต่อไปโดยใช้ชุดข้อมูลทั้งหมด
![](https://post.nghiatu.com/assets/images/m/max/724/1*zSJ0ppiL_kqAiplioXjqQQ.png)
การไหล
![](https://post.nghiatu.com/assets/images/m/max/724/1*cFfFmN7c0mHHP90rvK_iTw.png)
AutoAI ใช้ตัวอย่างข้อมูลเพื่อสร้างไปป์ไลน์ BatchedTreeEnsemble ผู้ใช้สามารถแก้ไขประเภทการสุ่มตัวอย่างได้ ประเภทการสุ่มตัวอย่างที่รองรับคือ: first values
(อ่านข้อมูลตั้งแต่เริ่มต้นจนถึงจุดตัด) stratified,
และ random
เทคนิคการสุ่มตัวอย่างเริ่มต้นถูกกำหนดrandom
เป็น
จากนั้น AutoAI จะสร้างรหัสIncremental learning notebook
ที่มีรหัสเพื่อดำเนินการฝึกอบรมชุดข้อมูลทั้งหมดต่อไป
คอมพิวเตอร์พกพา
สมุดบันทึกที่สร้างขึ้นใช้ชื่อtorch
ที่เข้ากันได้ ตัวโหลดข้อมูลนี้สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆ เช่น DB2, PostgreSQL, Amazon S3, Snowflake และอื่นๆDataLoader
ExperimentIterableDataset
![](https://post.nghiatu.com/assets/images/m/max/724/1*08Ubt7dxC--TZnldmh2rHg.png)
ในขั้นตอนถัดไป โค้ดจะดาวน์โหลดโมเดล BatchedTreeEnsemble จากการทดสอบ AutoAI ที่เสร็จสมบูรณ์โดยใช้get_pipeline()
เมธอด
![](https://post.nghiatu.com/assets/images/m/max/724/1*Ba_m3L6NpqYvdEQo3_ED8w.png)
สุดท้าย โมเดลจะได้รับการฝึกโดยใช้ชุดข้อมูลทั้งหมด ( partial_fit()
) กราฟการเรียนรู้ ความสามารถในการปรับขนาด และประสิทธิภาพของแผนภูมิแบบจำลองจะแสดงขึ้น
![](https://post.nghiatu.com/assets/images/m/max/724/1*q9hVB-TvRtW8Aslq7fpTvw.png)
โน้ตบุ๊กสามารถปรับแต่งได้อย่างง่ายดายเพื่อ:
- ใช้ตัวโหลดข้อมูลอื่น (ต้องส่งคืนชุดข้อมูลเป็น Pandas DataFrames)
- สนับสนุนฟังก์ชันผู้บันทึกคะแนนที่กำหนดเอง (เมตริก) ในระหว่างการฝึกซ้อมตามแบทช์
- รวมถึงข้อจำกัดในการหยุดการเรียนรู้ (เช่น หยุดหากความแม่นยำของโมเดลถึงเกณฑ์ที่กำหนด)
- ทำงานนอกระบบนิเวศของ Watson Studio (เช่น โครงสร้างพื้นฐานในเครื่อง)
- รองรับชุดข้อมูลแบบตารางขนาดใหญ่โดยไม่ต้องใช้ทรัพยากรเพิ่มเติม
- ตัวเลือกที่จะหยุดและดำเนินการฝึกอบรมต่อเมื่อใดก็ได้และทุกโครงสร้างพื้นฐาน
- ความโปร่งใสและความยืดหยุ่นของขั้นตอนการฝึกอบรม
- จำลองการจัดเก็บและการปรับใช้ด้วยโค้ดเพียงไม่กี่บรรทัด
- การเรียนรู้ของเครื่อง Snap
- เอกสาร Watson AutoAI
- สมุดบันทึกตัวอย่าง