Weka - การเลือกคุณสมบัติ

เมื่อฐานข้อมูลมีแอตทริบิวต์จำนวนมากจะมีแอตทริบิวต์หลายรายการที่ไม่สำคัญในการวิเคราะห์ที่คุณกำลังค้นหา ดังนั้นการลบแอตทริบิวต์ที่ไม่ต้องการออกจากชุดข้อมูลจึงกลายเป็นงานสำคัญในการพัฒนารูปแบบการเรียนรู้ของเครื่องที่ดี

คุณสามารถตรวจสอบชุดข้อมูลทั้งหมดด้วยสายตาและตัดสินใจเกี่ยวกับแอตทริบิวต์ที่ไม่เกี่ยวข้อง นี่อาจเป็นงานใหญ่สำหรับฐานข้อมูลที่มีแอตทริบิวต์จำนวนมากเช่นกรณีซูเปอร์มาร์เก็ตที่คุณเห็นในบทเรียนก่อนหน้านี้ โชคดีที่ WEKA มีเครื่องมืออัตโนมัติสำหรับการเลือกคุณสมบัติ

บทนี้สาธิตคุณลักษณะนี้บนฐานข้อมูลที่มีแอตทริบิวต์จำนวนมาก

กำลังโหลดข้อมูล

ใน Preprocess แท็กของ WEKA explorer เลือกไฟล์ labor.arffไฟล์สำหรับโหลดเข้าสู่ระบบ เมื่อคุณโหลดข้อมูลคุณจะเห็นหน้าจอต่อไปนี้ -

สังเกตว่ามี 17 แอตทริบิวต์ งานของเราคือสร้างชุดข้อมูลที่ลดลงโดยการกำจัดคุณลักษณะบางอย่างที่ไม่เกี่ยวข้องกับการวิเคราะห์ของเรา

คุณสมบัติการสกัด

คลิกที่ Select attributesTAB คุณจะเห็นหน้าจอต่อไปนี้ -

ภายใต้ Attribute Evaluator และ Search Methodคุณจะพบตัวเลือกมากมาย เราจะใช้ค่าเริ่มต้นที่นี่ ในAttribute Selection Modeใช้ตัวเลือกชุดการฝึกอบรมแบบเต็ม

คลิกที่ปุ่มเริ่มเพื่อประมวลผลชุดข้อมูล คุณจะเห็นผลลัพธ์ต่อไปนี้ -

ที่ด้านล่างของหน้าต่างผลลัพธ์คุณจะได้รับรายการ Selectedคุณลักษณะ. ในการรับการแสดงภาพให้คลิกขวาที่ผลลัพธ์ในไฟล์Result รายการ.

ผลลัพธ์จะแสดงในภาพหน้าจอต่อไปนี้ -

การคลิกที่สี่เหลี่ยมใด ๆ จะทำให้คุณได้พล็อตข้อมูลสำหรับการวิเคราะห์เพิ่มเติม พล็อตข้อมูลทั่วไปแสดงไว้ด้านล่าง -

สิ่งนี้คล้ายกับที่เราเห็นในบทก่อนหน้านี้ ลองเล่นกับตัวเลือกต่างๆที่มีให้เพื่อวิเคราะห์ผลลัพธ์

อะไรต่อไป?

คุณได้เห็นพลังของ WEKA ในการพัฒนาโมเดลแมชชีนเลิร์นนิงอย่างรวดเร็ว สิ่งที่เราใช้คือเครื่องมือกราฟิกที่เรียกว่าExplorerสำหรับการพัฒนาโมเดลเหล่านี้ WEKA ยังมีอินเทอร์เฟซบรรทัดคำสั่งที่ให้พลังมากกว่าที่มีให้ใน explorer

คลิกไฟล์ Simple CLI ในปุ่ม GUI Chooser แอปพลิเคชันเริ่มต้นอินเทอร์เฟซบรรทัดคำสั่งซึ่งแสดงในภาพหน้าจอด้านล่าง -

พิมพ์คำสั่งของคุณในช่องป้อนข้อมูลที่ด้านล่าง คุณจะสามารถทำทุกอย่างที่คุณเคยทำใน explorer และอื่น ๆ อีกมากมาย อ้างอิงเอกสาร WEKA (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) สำหรับรายละเอียดเพิ่มเติม

สุดท้าย WEKA ได้รับการพัฒนาใน Java และมีอินเทอร์เฟซสำหรับ API ดังนั้นหากคุณเป็นนักพัฒนา Java และต้องการรวมการใช้งาน WEKA ML ในโปรเจ็กต์ Java ของคุณเองคุณสามารถทำได้อย่างง่ายดาย

สรุป

WEKA เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการพัฒนาโมเดลแมชชีนเลิร์นนิง มีการใช้อัลกอริทึม ML ที่ใช้กันอย่างแพร่หลาย ก่อนที่อัลกอริทึมเหล่านี้จะถูกนำไปใช้กับชุดข้อมูลของคุณคุณสามารถประมวลผลข้อมูลล่วงหน้าได้ด้วย ประเภทของอัลกอริทึมที่ได้รับการสนับสนุนถูกจัดประเภทภายใต้แอตทริบิวต์ Classify, Cluster, Associate และ Select ผลลัพธ์ในขั้นตอนต่างๆของการประมวลผลสามารถมองเห็นได้ด้วยการแสดงภาพที่สวยงามและทรงพลัง สิ่งนี้ทำให้นักวิทยาศาสตร์ข้อมูลสามารถประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องต่างๆในชุดข้อมูลของเขาได้ง่ายขึ้นอย่างรวดเร็วเปรียบเทียบผลลัพธ์และสร้างแบบจำลองที่ดีที่สุดสำหรับการใช้งานขั้นสุดท้าย