वीका - क्लस्टरिंग

एक क्लस्टरिंग एल्गोरिथ्म पूरे डेटासेट में समान उदाहरणों के समूह पाता है। WEKA कई क्लस्टरिंग एल्गोरिदम जैसे EM, FilteredClusterer, HierarchicalClusterer, SimpleKMeans इत्यादि का समर्थन करता है। WEKA क्षमताओं का पूरी तरह से दोहन करने के लिए आपको इन एल्गोरिदम को पूरी तरह से समझना चाहिए।

वर्गीकरण के मामले में, WEKA आपको ज्ञात गुच्छों को ग्राफिक रूप से देखने की अनुमति देता है। क्लस्टरिंग प्रदर्शित करने के लिए, हम प्रदान किए गए आईरिस डेटाबेस का उपयोग करेंगे। डेटा सेट में 50 उदाहरणों के तीन वर्ग होते हैं। प्रत्येक वर्ग एक प्रकार के आईरिस पौधे को संदर्भित करता है।

डेटा लोड हो रहा है

WEKA एक्सप्लोरर में सेलेक्ट करें Preprocessटैब। पर क्लिक करेंOpen file ... विकल्प और चुनें iris.arffफ़ाइल चयन संवाद में फ़ाइल। जब आप डेटा लोड करते हैं, तो स्क्रीन जैसा दिखता है नीचे दिखाया गया है -

आप देख सकते हैं कि 150 उदाहरण और 5 विशेषताएँ हैं। विशेषताओं के नाम के रूप में सूचीबद्ध हैंsepallength, sepalwidth, petallength, petalwidth तथा class। पहले चार गुण संख्यात्मक प्रकार के होते हैं जबकि वर्ग एक नाममात्र प्रकार होता है जिसमें 3 अलग-अलग मान होते हैं। डेटाबेस की विशेषताओं को समझने के लिए प्रत्येक विशेषता की जांच करें। हम इस डेटा पर कोई प्रीप्रोसेसिंग नहीं करेंगे और सीधे मॉडल निर्माण के लिए आगे बढ़ेंगे।

क्लस्टरिंग

पर क्लिक करें Clusterहमारे लोड किए गए डेटा के क्लस्टरिंग एल्गोरिदम को लागू करने के लिए TAB। पर क्लिक करेंChooseबटन। आप निम्न स्क्रीन देखेंगे -

अब, चयन करें EMक्लस्टरिंग एल्गोरिथ्म के रूप में। मेंCluster mode उप विंडो, का चयन करें Classes to clusters evaluation नीचे स्क्रीनशॉट में दिखाया गया विकल्प -

पर क्लिक करें Startडेटा संसाधित करने के लिए बटन। थोड़ी देर के बाद, परिणाम स्क्रीन पर प्रस्तुत किए जाएंगे।

इसके बाद, हम परिणामों का अध्ययन करते हैं।

आउटपुट की जांच

डेटा प्रोसेसिंग का आउटपुट नीचे स्क्रीन में दिखाया गया है -

आउटपुट स्क्रीन से, आप देख सकते हैं कि -

  • डेटाबेस में 5 क्लस्टर इंस्टेंसेस का पता चला है।

  • Cluster 0 सेटोसा का प्रतिनिधित्व करता है, Cluster 1 वर्जिनिका का प्रतिनिधित्व करता है, Cluster 2 छंद का प्रतिनिधित्व करता है, जबकि अंतिम दो समूहों में उनके साथ कोई वर्ग जुड़ा नहीं है।

यदि आप आउटपुट विंडो को स्क्रॉल करते हैं, तो आपको कुछ आँकड़े भी दिखाई देंगे, जो विभिन्न पहचाने गए समूहों में प्रत्येक विशेषता के लिए माध्य और मानक विचलन देते हैं। यह नीचे दिए गए स्क्रीनशॉट में दिखाया गया है -

अगला, हम समूहों के दृश्य प्रतिनिधित्व को देखेंगे।

दृश्य क्लस्टर्स

समूहों की कल्पना करने के लिए, दाईं ओर क्लिक करें EM में परिणाम Result list। आपको निम्न विकल्प दिखाई देंगे -

चुनते हैं Visualize cluster assignments। आप निम्न आउटपुट देखेंगे -

वर्गीकरण के मामले में, आप सही और गलत तरीके से पहचाने गए उदाहरणों के बीच अंतर को नोटिस करेंगे। आप परिणामों का विश्लेषण करने के लिए एक्स और वाई कुल्हाड़ियों को बदलकर खेल सकते हैं। सही पहचाने गए उदाहरणों की एकाग्रता का पता लगाने के लिए आप वर्गीकरण के मामले में घबराने का उपयोग कर सकते हैं। विज़ुअलाइज़ेशन भूखंड में संचालन उसी के समान है जिसे आपने वर्गीकरण के मामले में अध्ययन किया था।

पदानुक्रम क्लस्टर लागू करना

WEKA की शक्ति का प्रदर्शन करने के लिए, आइए अब एक और क्लस्टरिंग एल्गोरिथ्म के अनुप्रयोग पर ध्यान दें। WEKA एक्सप्लोरर में, का चयन करेंHierarchicalClusterer अपने एमएल एल्गोरिथ्म के रूप में नीचे दिखाए गए स्क्रीनशॉट में दिखाया गया है -

चुनना Cluster mode के लिए चयन Classes to cluster evaluation, और पर क्लिक करें Startबटन। आप निम्न आउटपुट देखेंगे -

ध्यान दें कि में Result list, दो परिणाम सूचीबद्ध हैं: पहला एक EM परिणाम है और दूसरा वर्तमान Hierarchical है। इसी तरह, आप एक ही डाटासेट के लिए कई एमएल एल्गोरिदम लागू कर सकते हैं और जल्दी से उनके परिणामों की तुलना कर सकते हैं।

यदि आप इस एल्गोरिथम द्वारा निर्मित पेड़ की जांच करते हैं, तो आपको निम्न आउटपुट दिखाई देंगे -

अगले अध्याय में, आप अध्ययन करेंगे Associate एमएल एल्गोरिदम का प्रकार।