क्लस्टरिंग एल्गोरिदम - अवलोकन
क्लस्टरिंग का परिचय
क्लस्टरिंग विधियाँ सबसे उपयोगी अनुपयोगी एमएल विधियों में से एक हैं। इन तरीकों का उपयोग डेटा नमूनों में समानता और साथ ही संबंधों के पैटर्न को खोजने के लिए किया जाता है और फिर उन नमूनों को उन समूहों में क्लस्टर किया जाता है जिनमें सुविधाओं के आधार पर समानता होती है।
क्लस्टरिंग महत्वपूर्ण है क्योंकि यह मौजूदा गैर-सूचीबद्ध डेटा के बीच आंतरिक समूह को निर्धारित करता है। वे मूल रूप से अपनी समानता का गठन करने के लिए डेटा बिंदुओं के बारे में कुछ धारणाएं बनाते हैं। प्रत्येक धारणा अलग लेकिन समान रूप से मान्य समूहों का निर्माण करेगी।
उदाहरण के लिए, नीचे आरेख है जो क्लस्टरिंग सिस्टम को अलग-अलग समूहों में समान डेटा के साथ समूहीकृत करता है -
क्लस्टर गठन के तरीके
यह आवश्यक नहीं है कि गुच्छों को गोलाकार रूप में बनाया जाएगा। अनुवर्ती कुछ अन्य क्लस्टर निर्माण विधियाँ हैं -
घनत्व के आधार पर
इन विधियों में, गुच्छों को घने क्षेत्र के रूप में बनाया जाता है। इन विधियों का लाभ यह है कि उनमें अच्छी सटीकता के साथ-साथ दो समूहों को मिलाने की अच्छी क्षमता है। पूर्व। घनत्व-आधारित स्थानिक क्लस्टरिंग ऑफ़ एप्लिकेशन विथ नॉइज़ (DBSCAN), ऑर्डरिंग पॉइंट्स टू क्लस्टिंग स्ट्रक्चर (ऑप्टिक्स) आदि की पहचान करना।
श्रेणीबद्ध आधारित
इन विधियों में, गुच्छों का निर्माण पदानुक्रम के आधार पर एक पेड़ प्रकार की संरचना के रूप में किया जाता है। उनके पास दो श्रेणियां हैं, एग्लोमेरेटिव (बॉटम अप एप्रोच) और डिविसिव (टॉप डाउन अप्रोच)। पूर्व। प्रतिनिधि (CURE) का उपयोग करके क्लस्टरिंग, संतुलित पुनरावृत्ति को कम करना, पदानुक्रम (BIRCH) आदि का उपयोग करना।
विभाजन
इन विधियों में, वस्तुओं को k समूहों में विभाजित करके समूहों का निर्माण किया जाता है। समूहों की संख्या विभाजन की संख्या के बराबर होगी। पूर्व। K- साधन, यादृच्छिक खोज (CLARANS) के आधार पर बड़े अनुप्रयोगों का क्लस्टरिंग।
ग्रिड
इन विधियों में, क्लस्टर संरचना की तरह ग्रिड के रूप में बनते हैं। इन विधियों का लाभ यह है कि इन ग्रिडों पर किए गए सभी क्लस्टरिंग ऑपरेशन डेटा ऑब्जेक्ट्स की संख्या से तेज़ और स्वतंत्र हैं। पूर्व। सांख्यिकीय सूचना ग्रिड (STING), क्वेस्ट में क्लस्टरिंग (CLIQUE)।
मापने क्लस्टरिंग प्रदर्शन
एमएल मॉडल के बारे में सबसे महत्वपूर्ण विचार इसके प्रदर्शन का आकलन है या आप कह सकते हैं कि मॉडल की गुणवत्ता। पर्यवेक्षित शिक्षण एल्गोरिदम के मामले में, हमारे मॉडल की गुणवत्ता का आकलन करना आसान है क्योंकि हमारे पास पहले से ही हर उदाहरण के लिए लेबल हैं।
दूसरी ओर, अप्रशिक्षित लर्निंग एल्गोरिदम के मामले में हम इतने धन्य नहीं हैं क्योंकि हम अनलिस्टेड डेटा से निपटते हैं। लेकिन फिर भी हमारे पास कुछ मेट्रिक्स हैं जो एल्गोरिथम के आधार पर क्लस्टर्स में बदलाव के बारे में चिकित्सक को जानकारी देते हैं।
इससे पहले कि हम ऐसे मेट्रिक्स में गहराई से उतरें, हमें यह समझना चाहिए कि ये मीट्रिक केवल मॉडल की भविष्यवाणी की वैधता को मापने के बजाय एक दूसरे के खिलाफ मॉडल के तुलनात्मक प्रदर्शन का मूल्यांकन करते हैं। अनुसरण कुछ मीट्रिक हैं जिन्हें हम मॉडल की गुणवत्ता को मापने के लिए क्लस्टरिंग एल्गोरिदम पर तैनात कर सकते हैं -
सिल्हूट विश्लेषण
समूहों के बीच की दूरी को मापकर क्लस्टरिंग मॉडल की गुणवत्ता की जांच करने के लिए सिल्हूट विश्लेषण का उपयोग किया जाता है। यह मूल रूप से हमें क्लस्टर्स की संख्या जैसे मापदंडों की सहायता से आकलन करने का एक तरीका प्रदान करता हैSilhouette score। यह स्कोर मापता है कि पड़ोसी क्लस्टर में प्रत्येक बिंदु एक क्लस्टर में कितना करीब है।
सिल्हूट स्कोर का विश्लेषण
सिल्हूट स्कोर की सीमा [-1, 1] है। इसका विश्लेषण इस प्रकार है -
+1 Score - करीब 1 साल Silhouette score इंगित करता है कि नमूना अपने पड़ोसी क्लस्टर से बहुत दूर है।
0 Score - 0 Silhouette score इंगित करता है कि नमूना दो पड़ोसी समूहों को अलग करने वाली निर्णय सीमा पर या बहुत करीब है।
-1 Score & minusl -1 Silhouette score इंगित करता है कि नमूनों को गलत समूहों को सौंपा गया है।
सिल्हूट स्कोर की गणना निम्नलिखित सूत्र का उपयोग करके की जा सकती है -
= (-) / (,)
यहाँ, निकटतम क्लस्टर में बिंदुओं से दूरी का मतलब है
और, = सभी बिंदुओं के लिए अंतर-क्लस्टर दूरी।
डेविस-बोल्डिन इंडेक्स
डीबी इंडेक्स क्लस्टरिंग एल्गोरिदम का विश्लेषण करने के लिए एक और अच्छा मीट्रिक है। DB सूचकांक की मदद से, हम क्लस्टरिंग मॉडल के बारे में निम्नलिखित बिंदुओं को समझ सकते हैं -
मौसम क्लस्टर अच्छी तरह से एक दूसरे से दूरी पर हैं या नहीं?
क्लस्टर कितने घने हैं?
हम निम्नलिखित सूत्र की सहायता से DB सूचकांक की गणना कर सकते हैं -
$$DB=\frac{1}{n}\displaystyle\sum\limits_{i=1}^n max_{j\neq{i}}\left(\frac{\sigma_{i}+\sigma_{j}}{d(c_{i},c_{j})}\right)$$यहाँ, = समूहों की संख्या
। i = क्लस्टर सेंट्रो से क्लस्टर में सभी बिंदुओं की औसत दूरी।
डीबी इंडेक्स कम, क्लस्टरिंग मॉडल बेहतर है।
दून सूचकांक
यह डीबी इंडेक्स के समान ही काम करता है लेकिन निम्नलिखित बिंदु हैं जिनमें दोनों अलग-अलग हैं -
दून इंडेक्स केवल सबसे खराब स्थिति मानता है यानी क्लस्टर जो एक साथ पास होते हैं जबकि डीबी इंडेक्स क्लस्टरिंग मॉडल में सभी क्लस्टर्स के फैलाव और पृथक्करण पर विचार करता है।
प्रदर्शन बढ़ने पर डन इंडेक्स बढ़ता है जबकि डीबी इंडेक्स बेहतर होता है जब क्लस्टर अच्छी तरह से घने और घने होते हैं।
हम निम्नलिखित सूत्र की सहायता से डन इंडेक्स की गणना कर सकते हैं -
$$D=\frac{min_{1\leq i <{j}\leq{n}}P(i,j)}{mix_{1\leq i < k \leq n}q(k)}$$यहाँ, = समूहों के लिए प्रत्येक सूचकांक
= अंतर-क्लस्टर दूरी
q = इंट्रा-क्लस्टर दूरी
एमएल क्लस्टरिंग एल्गोरिदम के प्रकार
निम्नलिखित सबसे महत्वपूर्ण और उपयोगी एमएल क्लस्टरिंग एल्गोरिदम हैं -
K- मतलब क्लस्टरिंग
यह क्लस्टरिंग एल्गोरिदम सेंट्रोइड्स की गणना करता है और तब तक पुनरावृत्त करता है जब तक कि हम इष्टतम सेंट्रोइड नहीं पाते। यह मानता है कि समूहों की संख्या पहले से ही ज्ञात है। इसे फ्लैट क्लस्टरिंग एल्गोरिदम भी कहा जाता है। एल्गोरिथ्म द्वारा डेटा से पहचाने जाने वाले समूहों की संख्या को K- साधनों में 'K' द्वारा दर्शाया गया है।
मीन-शिफ्ट एलगोरिदम
यह एक और शक्तिशाली क्लस्टरिंग एल्गोरिथ्म है जिसका उपयोग अप्रशिक्षित शिक्षा में किया जाता है। K- साधन क्लस्टरिंग के विपरीत, यह कोई धारणा नहीं बनाता है इसलिए यह एक गैर पैरामीट्रिक एल्गोरिथ्म है।
पदानुक्रमित क्लस्टरिंग
यह एक और अनियोजित शिक्षण एल्गोरिथ्म है जो समान विशेषताओं वाले अनलिस्टेड डेटा बिंदुओं को एक साथ समूह में लाने के लिए उपयोग किया जाता है।
हम आगामी अध्याय में इन सभी एल्गोरिदम पर विस्तार से चर्चा करेंगे।
क्लस्टरिंग के अनुप्रयोग
हम निम्नलिखित क्षेत्रों में उपयोगी क्लस्टरिंग पा सकते हैं -
Data summarization and compression- क्लस्टरिंग का उपयोग उन क्षेत्रों में व्यापक रूप से किया जाता है जहां हमें डेटा संक्षेपण, संपीड़न और कटौती की आवश्यकता होती है। उदाहरण छवि प्रसंस्करण और वेक्टर परिमाणीकरण हैं।
Collaborative systems and customer segmentation - चूंकि क्लस्टरिंग का उपयोग समान उत्पादों या समान प्रकार के उपयोगकर्ताओं को खोजने के लिए किया जा सकता है, इसलिए इसका उपयोग सहयोगी प्रणालियों और ग्राहक विभाजन के क्षेत्र में किया जा सकता है।
Serve as a key intermediate step for other data mining tasks- क्लस्टर विश्लेषण वर्गीकरण, परीक्षण, परिकल्पना पीढ़ी के लिए डेटा का एक कॉम्पैक्ट सारांश उत्पन्न कर सकता है; इसलिए, यह अन्य डेटा माइनिंग कार्यों के लिए एक महत्वपूर्ण मध्यवर्ती कदम के रूप में भी कार्य करता है।
Trend detection in dynamic data - क्लस्टरिंग का उपयोग डायनामिक डेटा में ट्रेंड डिटेक्शन के लिए भी किया जा सकता है, जो समान ट्रेंड के विभिन्न क्लस्टर बनाकर करते हैं।
Social network analysis- क्लस्टरिंग का उपयोग सोशल नेटवर्क विश्लेषण में किया जा सकता है। उदाहरण छवियों, वीडियो या ऑडियो में अनुक्रम उत्पन्न कर रहे हैं।
Biological data analysis - क्लस्टरिंग का उपयोग छवियों, वीडियो के क्लस्टर बनाने के लिए भी किया जा सकता है, इसलिए इसे जैविक डेटा विश्लेषण में सफलतापूर्वक उपयोग किया जा सकता है।