LCE: วิธีการเรียนรู้ของเครื่องที่ทรงพลังที่สุด?

Nov 30 2022
ขอแนะนำวิธีการใหม่แบบอิงต้นไม้ที่ล้ำสมัยและความก้าวหน้าต่อไปที่อาจเกิดขึ้น
ดังที่แสดงใน “เหตุใดโมเดลที่อิงตามต้นไม้จึงยังมีประสิทธิภาพดีกว่าการเรียนรู้เชิงลึกบนข้อมูลแบบตาราง” [Grinsztajn et al., 2022] โมเดลแบบต้นไม้ที่ใช้กันอย่างแพร่หลายยังคงเป็นวิธีการเรียนรู้ของเครื่องที่ทันสมัยในหลายกรณี
ภาพถ่ายโดย Petr Slováček บน Unplash

ดังที่แสดงใน “เหตุใดโมเดลที่อิงตามต้นไม้จึงยังมีประสิทธิภาพดีกว่าการเรียนรู้เชิงลึกบนข้อมูลแบบตาราง” [Grinsztajn et al., 2022] โมเดลแบบต้นไม้ ที่ใช้กันอย่างแพร่หลาย ยังคงเป็นวิธีการเรียนรู้ของเครื่องที่ทันสมัยในหลายกรณี เมื่อเร็ว ๆ นี้Local Cascade Ensemble (LCE) [Fauvel et al., 2022] เสนอที่จะรวมจุดแข็งของวิธีวงดนตรีตามต้นไม้ที่มีประสิทธิภาพสูงสุด — Random Forest [Breiman, 2001] และ eXtreme Gradient Boosting (XGBoost) [Chen และ Guestrin 2016] และผสานรวมแนวทางการกระจายความเสี่ยงเพิ่มเติมซึ่งช่วยให้สามารถคาดการณ์ภาพรวมได้ดีขึ้น

บทความนี้จะแนะนำ LCEก่อน จากนั้นจึงเปรียบเทียบประสิทธิภาพของมันกับ Random Forest และ XGBoostในชุดข้อมูลสาธารณะต่างๆ จากนั้น จากความคิดเห็นของผู้ใช้ (การดาวน์โหลดแพ็คเกจหลายหมื่นครั้งในช่วงสองสามเดือนแรกหลังจากเปิดตัว) บทความนี้นำเสนอแนวคิดบางอย่างเพื่อปรับปรุงความสามารถของ LCEและสร้างวิธีการเรียนรู้ของเครื่องที่ทรงพลังที่สุด สุดท้ายนี้จะ อธิบายถึงวิธีการเข้าร่วมในความก้าวหน้าของ LCE

ภาพรวม

Random Forest และ XGBoost อาศัยวิธีการห่อและบูสต์ตามลำดับ การใส่ถุงมีผลหลักในการลดความแปรปรวน ในขณะที่การเร่งมีผลหลักในการลดอคติ ทำให้ทั้งสองวิธีนี้เสริมกันเพื่อจัดการกับการแลกเปลี่ยนความแปรปรวนทางอคติที่ต้องเผชิญกับโมเดลการเรียนรู้ของเครื่อง ดังนั้นLCE จึงผสมผสานทั้งการใส่ถุงและการส่งเสริม และเรียนรู้ส่วนต่าง ๆ ของข้อมูลการฝึกอบรมตามกลยุทธ์การแบ่งแยกและพิชิตเพื่อรวบรวมความสัมพันธ์ใหม่ ๆที่ไม่สามารถค้นพบได้ทั่วโลก สำหรับข้อมูลรายละเอียดเพิ่มเติมเกี่ยวกับ LCE โปรดดูบทความของฉัน “ Random Forest หรือ XGBoost? ได้เวลาสำรวจ LCEแล้ว”

การเปรียบเทียบ

ส่วนย่อยต่อไปนี้ให้รายละเอียดเกี่ยวกับวิธีการที่ใช้และผลลัพธ์ที่ได้รับจากการใช้งานทั่วไปของอัลกอริทึมดังกล่าว เพื่อให้บทความนี้มีความยาวเฉลี่ยในสื่อ การเปรียบเทียบจะเน้นที่งานการจัดหมวดหมู่ งานในอนาคตอาจสำรวจการเปรียบเทียบงานการถดถอย

การตั้งค่าการประเมินผล

ชุดข้อมูลการเปรียบเทียบทำขึ้นจากชุดข้อมูลสาธารณะ 10 ชุดที่มีลักษณะแตกต่างกันจากUCI Machine Learning Repository [Dua and Graff, 2017]: Avila [De Stefano et al., 2018], Breast Cancer [Bennett and Mangasarian, 1992], Iris [Fisher, 1936], MAGIC Gamma Telescope [Dvořák and Savický, 2007], เรือนเพาะชำ [Zupan et al., 1997], Shill Bidding [Alzahrani and Sadaoui, 2020], ความตั้งใจในการจัดซื้อของผู้ซื้อ [Sakar et al., 2018], เหล็ก ความผิดพลาดของจาน [Buscema et al., 2010], ไวน์ [Aeberhard et al., 1992], การแปลในร่มแบบไร้สาย [Rohra et al., 2017]

ตารางที่ 1 ประกอบด้วยชุดข้อมูลและคำอธิบาย ชุดข้อมูลได้รับการสุ่มเลือกจากหมวดหมู่ขนาดเล็ก/กลาง ซึ่งวิธี ensemble แบบทรีมักจะมีประสิทธิภาพดีกว่า

การใช้งานแพ็คเกจต่อไปนี้ถูกใช้กับ Python 3.10:

  • Local Cascade Ensemble (LCE): แพ็คเกจlcensemble ในเวอร์ชัน 0.3.2
  • Random Forest (RF): แพ็คเกจscikit-learnในเวอร์ชัน 1.1.2
  • XGBoost (XGB): แพ็คเกจxgboostในเวอร์ชัน 1.6.2

การเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์ ไฮเปอร์พารามิเตอร์แบบคลาสสิกในการเรียนรู้แบบต้นไม้ ( max_depth, n_estimators) สำหรับโมเดลทั้งหมดถูกกำหนดโดยการค้นหากริดพร้อมการตรวจสอบข้าม 3 เท่าในชุดการฝึก การค้นหาแบบกริดดำเนินการด้วยเครื่องมือการเลือกรุ่นGridSearchCVจาก scikit-learn

ช่วงของค่าสำหรับmax_depthและn_estimatorsเป็นค่าที่มักใช้สำหรับวิธีการเหล่านี้ สำหรับการเปรียบเทียบอย่างยุติธรรม ช่วงของค่าที่max_depthLCE ใช้สำหรับ XGBoost ( xgb_max_depth) จะเหมือนกับค่าที่ใช้ในการประเมิน XGBoost ([3, 6, 9] ดูเอกสารประกอบ LCE )

ไฮเปอร์พารามิเตอร์แบบคลาสสิกเหล่านี้ได้รับเลือกสำหรับการเปรียบเทียบทั่วไปนี้ ในกรณีของแอปพลิเคชันเฉพาะ อาจเป็นเรื่องที่น่าสนใจที่จะพิจารณาไฮเปอร์พารามิเตอร์ชุดอื่น โปรดดูเอกสารประกอบของแต่ละวิธีสำหรับข้อมูลเพิ่มเติม

เมตริกสำหรับแต่ละรุ่น จะมีการรายงานความแม่นยำในชุดทดสอบของชุดข้อมูลแต่ละชุด อันดับเฉลี่ยและจำนวนการชนะ/เสมอกันในชุดข้อมูลทั้งหมดจะแสดงเป็นสถิติสรุปด้วย

รหัส รหัส Python ที่ใช้ในการเปรียบเทียบมีดังนี้ (จัดรูปแบบด้วยสีดำ ):

ผลลัพธ์

ตารางที่ 1 แสดงผลที่ได้รับตามวิธีการที่แนะนำก่อนหน้านี้ ความแม่นยำที่ดีที่สุดสำหรับชุดข้อมูลแต่ละชุดจะแสดงเป็นตัวหนา

ตารางที่ 1: ผลลัพธ์ความแม่นยำของชุดข้อมูล 10 ชุดจากที่เก็บ UCI [Dua and Graff, 2017] ชุดข้อมูลถูกจัดเรียงตามลำดับขนาดจากน้อยไปหามาก อักษรย่อ : คป. — จำนวนคลาส Dims — จำนวนมิติ ตัวอย่าง — จำนวนตัวอย่าง

อันดับแรก เราสังเกตว่าLCEเป็นตัวทำนายทั่วไปที่ดีกว่าเนื่องจากได้รับอันดับเฉลี่ยที่ดีที่สุดในชุดข้อมูลทั้งหมด (LCE: 1.0, Random Forest: 2.1, XGBoost: 2.0)

จากนั้น เราจะเห็นว่าการรวมจุดแข็งของ Random Forest และ XGBoost ในขณะที่ใช้วิธีเสริมความหลากหลายนั้นLCE มีประสิทธิภาพดีกว่าทั้งสองวิธีในชุดข้อมูล 4 จาก 10 ชุดในชุดข้อมูลทั้งสองประเภท (ขนาดเล็ก/ขนาดกลาง) สำหรับชุดข้อมูล ที่เหลือ LCE ได้รับประสิทธิภาพการทำนายเช่นเดียวกับวิธีที่มีประสิทธิภาพดีที่สุดระหว่าง Random Forest และ XGBoost (3 ชนะ/เสมอกันกับ Random Forest และ 4 ชนะ/เสมอกันกับ XGBoost) ดังนั้น การออกแบบ LCEช่วยให้สามารถรักษาวิธี Random Forest และ XGBoost ที่ดีที่สุดไว้ได้ตลอดทั้งชุดข้อมูลที่ทดสอบและวิธีการเสริมความหลากหลายช่วยให้สามารถทำงานได้ดีกว่าทั้งสองวิธี

ความก้าวหน้าในอนาคต

ตามที่ได้แนะนำไปก่อนหน้านี้ LCE เป็น วิธีการเรียนรู้ของเครื่อง ที่มีประสิทธิภาพสูงปรับขนาดได้และเป็นมิตรกับผู้ใช้สำหรับงานทั่วไปของการจำแนกประเภทและการถดถอย โดยเฉพาะอย่างยิ่ง LCE:

  • ปรับปรุงประสิทธิภาพการทำนายของ Random Forest และ XGBoost โดยการรวมจุดแข็งและปรับใช้แนวทางการกระจายความเสี่ยงเสริม
  • รองรับการประมวลผลแบบขนานเพื่อให้แน่ใจว่าสามารถปรับขยายได้
  • จัดการกับข้อมูลที่หายไปด้วยการออกแบบ
  • ใช้ scikit-learn API เพื่อความสะดวกในการใช้งาน
  • ปฏิบัติตามแบบแผนของ scikit-learn เพื่ออนุญาตการโต้ตอบกับไปป์ไลน์ scikit-learn และเครื่องมือการเลือกแบบจำลอง
  • เปิดตัวในโอเพ่นซอร์สและใช้งานได้ในเชิงพาณิชย์ — ใบอนุญาต Apache 2.0

ขั้นตอนถัดไป

จากความคิดเห็นของผู้ใช้รอบแรกและประสบการณ์การพัฒนา LCE ของฉันเอง ชุมชนควรเพิ่มคุณสมบัติต่อไปนี้ให้กับ LCE:

ความยืดหยุ่นในการสร้างแบบจำลอง:

  • เมธอดพื้นฐาน: LCE ใช้ XGBoost เป็นเมธอดพื้นฐานในแต่ละโหนดของทรี การเสนอให้ผู้ใช้ปลายทางสามารถเลือกวิธีการพื้นฐานตามการใช้งานเฉพาะของตนได้จะเป็นประโยชน์ เช่น วิธีการเร่งประสิทธิภาพอื่นๆ เช่น LightGBM [Ke et al., 2017] หรือวิธีการเรียนรู้ของเครื่องอื่นๆ ที่มีผลหลักต่อ ลดอคติโดยเพิ่มเป็นพารามิเตอร์ของ LCE
  • ฟังก์ชันการสูญเสีย: LCE ใช้ฟังก์ชันการสูญเสียมาตรฐานที่มีอยู่ใน scikit-learn (เช่น ครอสเอนโทรปี, MSE) ฟังก์ชันมาตรฐานเหล่านี้ไม่เหมาะกับแอปพลิเคชันเฉพาะผู้ใช้ทั้งหมด ดังนั้น การเพิ่มความเป็นไปได้ในการใช้ฟังก์ชันการสูญเสียที่กำหนดเองสำหรับผู้ใช้ปลายทางจึงเป็นประโยชน์ (สำหรับข้อมูลเพิ่มเติม โปรดดูที่การสนทนาปัจจุบันในปัญหา GitHub ของ scikit-learn )
  • การเรียนรู้แบบหลายงาน: ปัจจุบัน LCE ใช้การเรียนรู้แบบงานเดียวแบบดั้งเดิม อย่างไรก็ตาม ในหลาย ๆ แอปพลิเคชัน (เช่น การประเมินความเสี่ยงทางการแพทย์ การคาดการณ์ทางการเงินของตัวบ่งชี้หลายตัว) เป็นที่พึงปรารถนาในการแก้ปัญหาหลาย ๆ งานที่เกี่ยวข้องกับการเรียนรู้ของเครื่องเพื่อปรับปรุงประสิทธิภาพการทำงานทั่วไป งานล่าสุด [Ibrahim et al., 2022] เสนอให้จัดการกับความท้าทายนี้โดยขยายต้นไม้ที่มีความแตกต่างด้วย Regularizer ที่อนุญาตให้มีการแบ่งปันพารามิเตอร์ที่นุ่มนวลระหว่างงานต่างๆ ซึ่งอาจเป็นตัวเลือกที่น่าสนใจในการพิจารณา
  • การสตรีม: เพื่อตอบสนองความต้องการของแอปพลิเคชันที่เกิดขึ้นใหม่เพื่อประมวลผลสตรีมข้อมูลจำนวนมหาศาลที่กำลังพัฒนา (เช่น สำหรับการรักษาความปลอดภัยทางไซเบอร์ การจัดการพลังงาน) การพัฒนา LCE เวอร์ชันสตรีมที่จะรวมความต้องการหน่วยความจำที่เข้มงวดและเวลาประมวลผลที่รวดเร็วนั้นมีประโยชน์ . ผลงานของโกเมสและคณะ [2017] ด้วยแนวทางที่ปรับเปลี่ยนได้อาจเป็นจุดเริ่มต้นที่น่าสนใจในทิศทางนี้

ความสามารถในการ ปรับขนาด : เวลาในการคำนวณทั้งในขั้นตอนการฝึกอบรมและการอนุมานเป็นกุญแจสำคัญสำหรับแอปพลิเคชันจำนวนมาก ดังนั้น จึงมีประโยชน์สำหรับ:

  • CPU: เร่งการใช้งาน CPU ปัจจุบัน
  • GPU: เพิ่มการรองรับ GPU (เช่น CUDA)
  • กระจายบนคลาวด์: เพิ่มการรองรับการฝึกอบรมแบบกระจายบนเครื่องหลายเครื่อง (เช่น คลัสเตอร์ AWS, GCE, Azure และ Yarn) และการผสานรวมกับระบบโฟลว์ข้อมูลบนคลาวด์ (เช่น Flink และ Spark)

วิธีการเข้าร่วม?

มีหลายวิธีในการเข้าร่วม LCE; ตัวอย่างเช่น โครงการโรงเรียนสำหรับนักเรียน คำถามวิจัยสำหรับนักวิชาการ การเพิ่มประสิทธิภาพสูงสุดผ่านการทำงานร่วมกันสำหรับมืออาชีพ:

  • เพิ่มดาวไปยังที่เก็บLCE GitHub ดูเหมือนไม่มีนัยสำคัญ แต่เป็นกุญแจสำคัญสำหรับการอ้างอิงและการมองเห็น LCE
  • ตอบคำถามเกี่ยวกับตัวติดตามปัญหา ตรวจสอบข้อบกพร่อง และตรวจสอบคำขอดึงของนักพัฒนารายอื่นเพื่อให้แน่ใจว่าเวอร์ชันที่มีอยู่ทำงานตามที่คาดไว้
  • พัฒนากรณีทดสอบใหม่เพื่อทำให้ codebase แข็งแกร่งยิ่งขึ้น
  • ขยายขีดความสามารถของ LCE โดยเพิ่มคุณสมบัติใหม่เช่นเดียวกับที่แสดงในส่วนก่อนหน้า
  • ออกแบบบทช่วยสอนในสื่อต่างๆ กำหนดเป้าหมายผู้ชมที่แตกต่างกัน เพื่อให้ผู้คนค้นพบ LCE มากขึ้น

บทสรุป

บทความนี้นำเสนอ LCE วิธีการแมชชีนเลิร์นนิงแบบใหม่ และแสดงให้เห็นว่า LCE ได้รับประสิทธิภาพที่ดีที่สุดจากเกณฑ์มาตรฐานสาธารณะโดยเปรียบเทียบกับวิธีการที่มีประสิทธิภาพสูงสุดในปัจจุบัน จากนั้นจะแนะนำทิศทางหลักสำหรับการเข้าร่วมเพื่อพัฒนา LCE ให้ก้าวหน้ายิ่งขึ้นและปลดปล่อยศักยภาพอย่างเต็มที่ หากคุณมีคำถามใด ๆ คุณสามารถติดต่อฉันได้ที่นี่

อ้างอิง

S. Aeberhard, D. Coomans และ O. de Vel การเปรียบเทียบตัวแยกประเภทในการตั้งค่ามิติสูง เทคโนโลยี หมายเลขตัวแทน 92–02, 1992 (สัญญาอนุญาต: CC BY 4.0 )

อ. Alzahrani และ S. Sadaoui การรวมกลุ่มและการติดฉลากข้อมูลการฉ้อโกงการประมูล ในการจัดการข้อมูล การวิเคราะห์ และนวัตกรรม 269–283 2020 (ใบอนุญาต: CC0 )

K. Bennett และ O. Mangasarian การเลือกปฏิบัติเชิงเส้นเชิงเส้นที่แข็งแกร่งของชุดที่แยกกันไม่ออกเชิงเส้นสองชุด วิธีการเพิ่มประสิทธิภาพและซอฟต์แวร์ 1: 23–34, 1992 (ใบอนุญาต: CC0 )

แอล. บรีแมน. ป่าสุ่ม การเรียนรู้ของเครื่อง, 45(1):5–32, 2001

M. Buscema, S. Terzi และ W. Tastle Meta-Classifier ใหม่ การประชุมประจำปีของ North American Fuzzy Information Processing Society, 1–7, 2010 (ใบอนุญาต: PDDL )

ที. เฉิน และซี. เกสท์ริน. XGBoost: ระบบบูสต์ทรีที่ปรับขนาดได้ ในการดำเนินการประชุม ACM SIGKDD International Conference on Knowledge Discovery and Data Mining ครั้งที่ 22 ปี 2016

D. Dua และ C. Graff พื้นที่เก็บข้อมูลการเรียนรู้ของเครื่อง UCI, 2017

J. Dvořák และ P. Savický การแตกแยกแบบอ่อนในแผนผังการตัดสินใจโดยใช้การหลอมจำลอง การดำเนินการของ ICANNGA, 2007 (ใบอนุญาต: ODbL )

รัฐสภาและสภายุโรป พ.ศ. 2564 พระราชบัญญัติปัญญาประดิษฐ์ กฎหมายสหภาพยุโรป

K. Fauvel, E. Fromont, V. Masson, P. Faverdin และ A. Termier XEM: วิธีการทั้งมวลที่อธิบายได้ด้วยการออกแบบสำหรับการจำแนกอนุกรมเวลาหลายตัวแปร การทำเหมืองข้อมูลและการค้นพบความรู้ 36(3):917–957 2022

อาร์. ฟิสเชอร์. การใช้มาตรวัดหลายตัวในปัญหาทางอนุกรมวิธาน พงศาวดารของสุพันธุศาสตร์ 7: 179–188, 1936 (ใบอนุญาต: CC0 )

H. Gomes, A. Bifet, J. Read, J. Barddal, F. Enembreck, B. Pfharinger, G. Holmes และ T. Abdessalem ฟอเรสต์สุ่มที่ปรับเปลี่ยนได้เพื่อการจำแนกสตรีมข้อมูลที่มีวิวัฒนาการ การเรียนรู้ของเครื่อง, 106: 1469–1495, 2017

L. Grinsztajn, E. Oyallon และ G. Varoquaux เหตุใดโมเดลแบบต้นไม้จึงยังคงมีประสิทธิภาพดีกว่าการเรียนรู้เชิงลึกบนข้อมูลแบบตารางทั่วไป ในการดำเนินการประชุมครั้งที่ 36 เรื่องชุดข้อมูลและเกณฑ์มาตรฐานระบบประมวลผลข้อมูลประสาท พ.ศ. 2565

S. Ibrahim, H. Hussein และ R. Mazumder การสร้างแบบจำลองที่ยืดหยุ่นและการเรียนรู้แบบมัลติทาสก์โดยใช้ Differentiable Tree Ensembles ในการดำเนินการประชุม ACM SIGKDD International Conference on Knowledge Discovery and Data Mining ครั้งที่ 28 ปี 2022

G. Ke, Q. Meng, T. Finley, T. Wang, W. Chen, W. Ma, Q. Ye และ T. Liu LightGBM: ต้นไม้การตัดสินใจที่ส่งเสริมการไล่ระดับสีที่มีประสิทธิภาพสูง ในการประชุมวิชาการครั้งที่ 31 เรื่องระบบประมวลผลข้อมูลประสาท พ.ศ. 2560

เอส. ลุนด์เบิร์ก และ เอส. ลี. 2017 แนวทางแบบครบวงจรในการตีความการคาดคะเนแบบจำลอง ในการประชุมนานาชาติครั้งที่ 31 เรื่องระบบประมวลผลข้อมูลประสาท

P. Phillips, C. Hahn, P. Fontana, A. Yates, K. Greene, D. Broniatowski และ M. Przybocki 2564 หลักการสี่ประการของปัญญาประดิษฐ์ที่อธิบายได้ สถาบันมาตรฐานและเทคโนโลยีแห่งชาติของสหรัฐอเมริกา

M. Ribeiro, S. Singh และ C. Guestrin 2018 จุดยึด: คำอธิบายแบบไม่เชื่อเรื่องพระเจ้าที่มีความแม่นยำสูง ในรายงานการประชุม AAAI ครั้งที่ 32 เรื่องปัญญาประดิษฐ์

J. Rohra, B. Perumal, S. Narayanan, P. Thakur และ R. Bhatt การโลคัลไลเซชันผู้ใช้ในสภาพแวดล้อมภายในอาคารโดยใช้ Fuzzy Hybrid ของ Particle Swarm Optimization และอัลกอริทึมการค้นหาแรงโน้มถ่วงด้วย Neural Networks ในการดำเนินการประชุมนานาชาติครั้งที่ 6 เรื่อง Soft Computing สำหรับการแก้ปัญหา พ.ศ. 2560 (สัญญาอนุญาต: CC BY 4.0 )

ค. รูดิน. 2019 หยุดอธิบายโมเดลแมชชีนเลิร์นนิงของกล่องดำสำหรับการตัดสินใจที่มีเดิมพันสูง และใช้โมเดลที่ตีความได้แทน ความฉลาดของเครื่องธรรมชาติ 1: 206–215

C. Sakar, S. Polat, M. Katircioglu และ Y. Kastro การทำนายความตั้งใจในการซื้อของผู้ซื้อออนไลน์แบบเรียลไทม์โดยใช้ Multilayer Perceptron และ LSTM Recurrent Neural Networks Neural Computing and Applications, 6893–6908, 2018 (ใบอนุญาต: CC0 )

C. de Stefano, M. Maniaci, F. Fontanella และ A. Scotto di Freca การระบุนักเขียนที่เชื่อถือได้ในต้นฉบับยุคกลางผ่านคุณสมบัติเค้าโครงหน้า: กรณีพระคัมภีร์ 'Avila' การประยุกต์ใช้ปัญญาประดิษฐ์ทางวิศวกรรม, 72: 99–110, 2018 (ใบอนุญาต: CC0 )

B. Zupan, M. Bohanec, I. Bratko และ J. Demsar การเรียนรู้ของเครื่องโดยการสลายตัวของฟังก์ชัน ในรายงานการประชุมนานาชาติเรื่องการเรียนรู้ของเครื่องครั้งที่ 14 ปี 1997 (สัญญาอนุญาต: CC0 )