डाटा माइनिंग - क्लस्टर विश्लेषण

क्लस्टर ऑब्जेक्ट्स का एक समूह है जो एक ही वर्ग से संबंधित है। दूसरे शब्दों में, समान वस्तुओं को एक समूह में बांटा गया है और भिन्न वस्तुओं को दूसरे समूह में बांटा गया है।

क्लस्टरिंग क्या है?

क्लस्टरिंग अमूर्त वस्तुओं के समूह को समान वस्तुओं के वर्गों में बनाने की प्रक्रिया है।

Points to Remember

  • डेटा ऑब्जेक्ट के क्लस्टर को एक समूह के रूप में माना जा सकता है।

  • क्लस्टर विश्लेषण करते समय, हम पहले डेटा के सेट को डेटा समानता के आधार पर समूहों में विभाजित करते हैं और फिर समूहों को लेबल असाइन करते हैं।

  • वर्गीकरण पर क्लस्टरिंग का मुख्य लाभ यह है कि, यह परिवर्तनों के अनुकूल है और विभिन्न समूहों को अलग करने वाली उपयोगी विशेषताओं को एकल करने में मदद करता है।

क्लस्टर विश्लेषण के अनुप्रयोग

  • क्लस्टरिंग विश्लेषण का व्यापक रूप से कई अनुप्रयोगों में उपयोग किया जाता है जैसे कि बाजार अनुसंधान, पैटर्न मान्यता, डेटा विश्लेषण और छवि प्रसंस्करण।

  • क्लस्टरिंग भी विपणक को उनके ग्राहक आधार में अलग-अलग समूहों की खोज करने में मदद कर सकता है। और वे खरीद पैटर्न के आधार पर अपने ग्राहक समूहों को चिह्नित कर सकते हैं।

  • जीव विज्ञान के क्षेत्र में, इसका उपयोग पौधे और पशु वर्गीकरण को प्राप्त करने के लिए किया जा सकता है, जीन को समान कार्यात्मकताओं के साथ वर्गीकृत किया जा सकता है और आबादी में निहित संरचनाओं में अंतर्दृष्टि प्राप्त कर सकता है।

  • क्लस्टरिंग भी एक पृथ्वी अवलोकन डेटाबेस में इसी तरह के भूमि उपयोग के क्षेत्रों की पहचान करने में मदद करता है। यह घर के प्रकार, मूल्य और भौगोलिक स्थिति के अनुसार किसी शहर में घरों के समूहों की पहचान करने में भी मदद करता है।

  • क्लस्टरिंग सूचना खोज के लिए वेब पर दस्तावेजों को वर्गीकृत करने में भी मदद करता है।

  • क्लस्टरिंग का उपयोग क्रेडिट कार्ड फ्रॉड का पता लगाने जैसे बाह्य पता लगाने वाले अनुप्रयोगों में भी किया जाता है।

  • डेटा माइनिंग फ़ंक्शन के रूप में, क्लस्टर विश्लेषण प्रत्येक क्लस्टर की विशेषताओं का निरीक्षण करने के लिए डेटा के वितरण में अंतर्दृष्टि प्राप्त करने के लिए एक उपकरण के रूप में कार्य करता है।

डाटा माइनिंग में क्लस्टरिंग की आवश्यकताएं

निम्नलिखित बिंदुओं पर प्रकाश डालते हैं कि डेटा माइनिंग में क्लस्टरिंग की आवश्यकता क्यों है -

  • Scalability - हमें बड़े डेटाबेस से निपटने के लिए अत्यधिक मापनीय क्लस्टरिंग एल्गोरिदम की आवश्यकता है।

  • Ability to deal with different kinds of attributes - एल्गोरिदम किसी भी तरह के डेटा जैसे कि अंतराल-आधारित (संख्यात्मक) डेटा, श्रेणीबद्ध, और बाइनरी डेटा पर लागू होने में सक्षम होना चाहिए।

  • Discovery of clusters with attribute shape- क्लस्टरिंग एल्गोरिदम मनमाने आकार के समूहों का पता लगाने में सक्षम होना चाहिए। उन्हें केवल दूरी के उपायों के लिए बाध्य नहीं किया जाना चाहिए जो छोटे आकार के गोलाकार क्लस्टर को खोजने के लिए करते हैं।

  • High dimensionality - क्लस्टरिंग एल्गोरिदम न केवल कम-आयामी डेटा बल्कि उच्च आयामी स्थान को भी संभालने में सक्षम होना चाहिए।

  • Ability to deal with noisy data- डेटाबेस में शोर, गुम या गलत डेटा होता है। कुछ एल्गोरिदम ऐसे डेटा के प्रति संवेदनशील होते हैं और खराब गुणवत्ता वाले क्लस्टर को जन्म दे सकते हैं।

  • Interpretability - क्लस्टरिंग परिणाम व्याख्या योग्य, समझने योग्य और प्रयोग करने योग्य होना चाहिए।

क्लस्टरिंग तरीके

क्लस्टरिंग विधियों को निम्नलिखित श्रेणियों में वर्गीकृत किया जा सकता है -

  • विभाजन विधि
  • पदानुक्रमित विधि
  • घनत्व-आधारित विधि
  • ग्रिड-आधारित विधि
  • मॉडल आधारित पद्धति
  • बाधा आधारित विधि

विभाजन विधि

मान लीजिए कि हमें 'n' ऑब्जेक्ट का डेटाबेस दिया गया है और विभाजन विधि डेटा के 'k' विभाजन का निर्माण करती है। प्रत्येक विभाजन एक क्लस्टर और k। N का प्रतिनिधित्व करेगा। इसका अर्थ है कि यह डेटा को k समूहों में वर्गीकृत करेगा, जो निम्न आवश्यकताओं को पूरा करता है -

  • प्रत्येक समूह में कम से कम एक वस्तु होती है।

  • प्रत्येक वस्तु बिल्कुल एक समूह से संबंधित होनी चाहिए।

Points to remember −

  • विभाजन की एक दी गई संख्या (जैसे k) के लिए, विभाजन विधि एक प्रारंभिक विभाजन बनाएगी।

  • फिर यह वस्तुओं को एक समूह से दूसरे समूह में ले जाकर विभाजन को बेहतर बनाने के लिए पुनरावृत्ति पुनर्वास तकनीक का उपयोग करता है।

पदानुक्रमित तरीके

यह विधि डेटा ऑब्जेक्ट्स के दिए गए सेट का एक पदानुक्रमित विघटन बनाता है। हम पदानुक्रमित विधियों का वर्गीकरण इस आधार पर कर सकते हैं कि पदानुक्रमित अपघटन कैसे बनता है। यहाँ दो दृष्टिकोण हैं -

  • एग्लोमेरेटिव दृष्टिकोण
  • विभाजन का दृष्टिकोण

एग्लोमेरेटिव दृष्टिकोण

इस दृष्टिकोण को बॉटम-अप दृष्टिकोण के रूप में भी जाना जाता है। इसमें, हम प्रत्येक वस्तु के साथ एक अलग समूह बनाते हैं। यह उन वस्तुओं या समूहों को मिलाता रहता है जो एक दूसरे के करीब हैं। यह तब तक करता रहता है जब तक कि सभी समूह एक में विलय नहीं हो जाते हैं या जब तक कि समाप्ति की स्थिति नहीं होती है।

विभाजन का दृष्टिकोण

इस दृष्टिकोण को टॉप-डाउन दृष्टिकोण के रूप में भी जाना जाता है। इसमें, हम एक ही क्लस्टर में सभी वस्तुओं से शुरू करते हैं। निरंतर पुनरावृत्ति में, एक क्लस्टर को छोटे समूहों में विभाजित किया जाता है। यह तब तक नीचे है जब तक कि प्रत्येक वस्तु एक क्लस्टर या समाप्ति स्थिति में न हो। यह विधि कठोर है, अर्थात एक बार विलय या विभाजन हो जाने के बाद, इसे कभी भी पूर्ववत नहीं किया जा सकता है।

पदानुक्रमित क्लस्टरिंग की गुणवत्ता में सुधार के लिए दृष्टिकोण

यहां दो दृष्टिकोण दिए गए हैं जो पदानुक्रमित क्लस्टरिंग की गुणवत्ता में सुधार करने के लिए उपयोग किए जाते हैं -

  • प्रत्येक पदानुक्रमित विभाजन पर ऑब्जेक्ट लिंकेज का सावधानीपूर्वक विश्लेषण करें।

  • पहले समूह की वस्तुओं को सूक्ष्म-समूहों में समूहित करें और फिर सूक्ष्म-समूहों पर स्थूल-क्लस्टरिंग करते हुए पदानुक्रमित समूह का उपयोग करके पदानुक्रमित समूह को एकीकृत करें।

घनत्व-आधारित विधि

यह विधि घनत्व की धारणा पर आधारित है। मूल विचार यह है कि दिए गए क्लस्टर को तब तक जारी रखा जाए, जब तक कि पड़ोस में घनत्व कुछ सीमा से अधिक न हो, अर्थात, दिए गए क्लस्टर के भीतर प्रत्येक डेटा बिंदु के लिए, किसी दिए गए क्लस्टर के त्रिज्या में कम से कम न्यूनतम अंक होने चाहिए।

ग्रिड-आधारित पद्धति

इसमें पिंड मिलकर एक ग्रिड का निर्माण करते हैं। ऑब्जेक्ट स्पेस को एक ग्रिड संरचना बनाने वाली कोशिकाओं की परिमित संख्या में परिमाणित किया जाता है।

Advantages

  • इस विधि का प्रमुख लाभ तेजी से प्रसंस्करण समय है।

  • यह केवल परिमाणित स्थान में प्रत्येक आयाम में कोशिकाओं की संख्या पर निर्भर है।

मॉडल-आधारित विधियाँ

इस पद्धति में, किसी मॉडल को दिए गए मॉडल के लिए डेटा का सबसे अच्छा फिट खोजने के लिए प्रत्येक क्लस्टर के लिए परिकल्पित किया जाता है। यह विधि घनत्व फ़ंक्शन को क्लस्टर करके क्लस्टर का पता लगाती है। यह डेटा बिंदुओं के स्थानिक वितरण को दर्शाता है।

यह विधि मानक आंकड़ों के आधार पर समूहों की संख्या को स्वचालित रूप से निर्धारित करने के लिए एक रास्ता भी प्रदान करती है, जो बाहरी या शोर को ध्यान में रखते हुए। इसलिए यह मजबूत क्लस्टरिंग विधियों की पैदावार देता है।

बाधा आधारित विधि

इस पद्धति में, क्लस्टरिंग उपयोगकर्ता या अनुप्रयोग-उन्मुख बाधाओं के निगमन द्वारा किया जाता है। एक बाधा उपयोगकर्ता की अपेक्षा या वांछित क्लस्टरिंग परिणामों के गुणों को संदर्भित करती है। बाधाएं हमें क्लस्टरिंग प्रक्रिया के साथ संचार का एक इंटरैक्टिव तरीका प्रदान करती हैं। बाधाओं को उपयोगकर्ता या आवेदन की आवश्यकता के द्वारा निर्दिष्ट किया जा सकता है।