Weka - การจัดกลุ่ม

อัลกอริทึมการทำคลัสเตอร์จะค้นหากลุ่มของอินสแตนซ์ที่คล้ายกันในชุดข้อมูลทั้งหมด WEKA สนับสนุนอัลกอริทึมการทำคลัสเตอร์หลายแบบเช่น EM, FilteredClusterer, HierarchicalClusterer, SimpleKMeans เป็นต้น คุณควรเข้าใจอัลกอริทึมเหล่านี้อย่างสมบูรณ์เพื่อใช้ประโยชน์จากความสามารถของ WEKA อย่างเต็มที่

เช่นเดียวกับในกรณีของการจำแนก WEKA ช่วยให้คุณเห็นภาพของคลัสเตอร์ที่ตรวจพบในรูปแบบกราฟิก เพื่อสาธิตการจัดกลุ่มเราจะใช้ฐานข้อมูลม่านตาที่ให้มา ชุดข้อมูลประกอบด้วยสามคลาสละ 50 อินสแตนซ์ แต่ละชั้นหมายถึงพืชไอริสชนิดหนึ่ง

กำลังโหลดข้อมูล

ใน WEKA explorer เลือกไฟล์ Preprocessแท็บ คลิกที่Open file ... และเลือก iris.arffไฟล์ในกล่องโต้ตอบการเลือกไฟล์ เมื่อคุณโหลดข้อมูลหน้าจอจะมีลักษณะดังที่แสดงด้านล่าง -

คุณสามารถสังเกตได้ว่ามี 150 อินสแตนซ์และ 5 แอตทริบิวต์ ชื่อของแอตทริบิวต์แสดงรายการเป็นsepallength, sepalwidth, petallength, petalwidth และ class. แอตทริบิวต์สี่รายการแรกเป็นประเภทตัวเลขในขณะที่คลาสเป็นประเภทระบุที่มีค่าต่างกัน 3 ค่า ตรวจสอบแอตทริบิวต์แต่ละรายการเพื่อทำความเข้าใจคุณลักษณะของฐานข้อมูล เราจะไม่ดำเนินการใด ๆ ล่วงหน้ากับข้อมูลนี้และดำเนินการสร้างแบบจำลองทันที

การทำคลัสเตอร์

คลิกที่ ClusterTAB เพื่อใช้อัลกอริทึมการทำคลัสเตอร์กับข้อมูลที่โหลดของเรา คลิกที่Chooseปุ่ม. คุณจะเห็นหน้าจอต่อไปนี้ -

ตอนนี้เลือก EMเป็นอัลกอริทึมการจัดกลุ่ม ในCluster mode หน้าต่างย่อยเลือกไฟล์ Classes to clusters evaluation ตามที่แสดงในภาพหน้าจอด้านล่าง -

คลิกที่ Startปุ่มเพื่อประมวลผลข้อมูล หลังจากนั้นสักครู่ผลลัพธ์จะถูกนำเสนอบนหน้าจอ

ต่อไปให้เราศึกษาผลลัพธ์

การตรวจสอบผลลัพธ์

ผลลัพธ์ของการประมวลผลข้อมูลจะแสดงในหน้าจอด้านล่าง -

จากหน้าจอเอาต์พุตคุณสามารถสังเกตได้ว่า -

  • ตรวจพบอินสแตนซ์แบบคลัสเตอร์ 5 รายการในฐานข้อมูล

  • Cluster 0 เป็นตัวแทนของ setosa Cluster 1 แสดงถึง virginica Cluster 2 แสดงถึงความหลากหลายในขณะที่สองคลัสเตอร์สุดท้ายไม่มีคลาสใด ๆ ที่เกี่ยวข้อง

หากคุณเลื่อนหน้าต่างผลลัพธ์ขึ้นคุณจะเห็นสถิติบางอย่างที่ให้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานสำหรับแต่ละแอตทริบิวต์ในคลัสเตอร์ต่างๆที่ตรวจพบ สิ่งนี้แสดงในภาพหน้าจอด้านล่าง -

ต่อไปเราจะดูการแสดงภาพของคลัสเตอร์

การแสดงภาพคลัสเตอร์

หากต้องการดูภาพของคลัสเตอร์ให้คลิกขวาที่ไฟล์ EM ส่งผลให้ไฟล์ Result list. คุณจะเห็นตัวเลือกต่อไปนี้ -

เลือก Visualize cluster assignments. คุณจะเห็นผลลัพธ์ต่อไปนี้ -

เช่นเดียวกับในกรณีของการจัดประเภทคุณจะสังเกตเห็นความแตกต่างระหว่างอินสแตนซ์ที่ระบุอย่างถูกต้องและไม่ถูกต้อง คุณสามารถเล่นได้โดยเปลี่ยนแกน X และ Y เพื่อวิเคราะห์ผลลัพธ์ คุณอาจใช้การกระวนกระวายใจเช่นเดียวกับในกรณีของการจัดประเภทเพื่อค้นหาความเข้มข้นของอินสแตนซ์ที่ระบุอย่างถูกต้อง การดำเนินการในพล็อตการแสดงภาพคล้ายกับที่คุณศึกษาในกรณีของการจำแนกประเภท

การใช้ Hierarchical Clusterer

เพื่อแสดงให้เห็นถึงพลังของ WEKA ตอนนี้ให้เราตรวจสอบการประยุกต์ใช้อัลกอริทึมการทำคลัสเตอร์อื่น ใน WEKA explorer เลือกไฟล์HierarchicalClusterer เป็นอัลกอริทึม ML ของคุณดังที่แสดงในภาพหน้าจอที่แสดงด้านล่าง -

เลือก Cluster mode เลือกเป็น Classes to cluster evaluationแล้วคลิกที่ไฟล์ Startปุ่ม. คุณจะเห็นผลลัพธ์ต่อไปนี้ -

สังเกตว่าในไฟล์ Result listมีรายการผลลัพธ์สองรายการ: รายการแรกคือผลลัพธ์ EM และผลลัพธ์ที่สองคือลำดับชั้นปัจจุบัน ในทำนองเดียวกันคุณสามารถใช้อัลกอริทึม ML หลายชุดกับชุดข้อมูลเดียวกันและเปรียบเทียบผลลัพธ์ได้อย่างรวดเร็ว

หากคุณตรวจสอบต้นไม้ที่สร้างโดยอัลกอริทึมนี้คุณจะเห็นผลลัพธ์ต่อไปนี้ -

ในบทถัดไปคุณจะศึกษาไฟล์ Associate ประเภทของอัลกอริทึม ML