क्लस्टरिंग एल्गोरिदम - K- मतलब एल्गोरिथम

K- मीन्स एल्गोरिदम का परिचय

K- साधन क्लस्टरिंग एल्गोरिदम सेंट्रोइड्स की गणना करता है और तब तक पुनरावृत्त करता है जब तक कि हम इष्टतम सेंट्रोइड नहीं पाते। यह मानता है कि समूहों की संख्या पहले से ही ज्ञात है। इसे कहते भी हैंflat clusteringकलन विधि। एल्गोरिथ्म द्वारा डेटा से पहचाने जाने वाले समूहों की संख्या को K- साधनों में 'K' द्वारा दर्शाया गया है।

इस एल्गोरिथ्म में, डेटा बिंदुओं को एक क्लस्टर में इस तरह से असाइन किया जाता है कि डेटा बिंदुओं और सेंटीरोइड के बीच वर्ग दूरी का योग न्यूनतम होगा। यह समझा जाना चाहिए कि क्लस्टर के भीतर कम भिन्नता एक ही क्लस्टर में अधिक समान डेटा बिंदुओं को जन्म देगी।

K- मीन्स एल्गोरिथम का कार्य करना

हम निम्नलिखित चरणों की मदद से K- मीन्स क्लस्टरिंग एल्गोरिदम के काम को समझ सकते हैं -

  • Step 1 - सबसे पहले, हमें क्लस्टर की संख्या निर्दिष्ट करने की आवश्यकता है, के, इस एल्गोरिथ्म द्वारा उत्पन्न करने की आवश्यकता है।

  • Step 2- इसके बाद, K डेटा बिंदुओं को बेतरतीब ढंग से चुनें और प्रत्येक डेटा बिंदु को एक क्लस्टर में असाइन करें। सरल शब्दों में, डेटा बिंदुओं की संख्या के आधार पर डेटा को वर्गीकृत करें।

  • Step 3 - अब यह क्लस्टर सेंट्रोइड्स की गणना करेगा।

  • Step 4 - अगला, जब तक हम इष्टतम सेंट्रोइड नहीं पाते हैं, तब तक इसे जारी रखें, जो क्लस्टर को डेटा बिंदुओं का असाइनमेंट है जो अधिक परिवर्तन नहीं कर रहे हैं -

4.1 - सबसे पहले, डेटा बिंदुओं और केन्द्रक के बीच वर्ग दूरी की गणना की जाएगी।

4.2 - अब, हमें प्रत्येक डेटा पॉइंट को उस क्लस्टर को असाइन करना होगा जो अन्य क्लस्टर (सेंटीरोइड) की तुलना में करीब है।

4.3 - अंत में उस क्लस्टर के सभी डेटा बिंदुओं का औसत निकालकर समूहों के लिए केन्द्रक की गणना करें।

K- साधन निम्नानुसार है Expectation-Maximizationसमस्या को हल करने के लिए दृष्टिकोण। एक्सपेक्टेशन-स्टेप का उपयोग डेटा पॉइंट्स को निकटतम क्लस्टर में असाइन करने के लिए किया जाता है और मैक्सिमाइजेशन-स्टेप का उपयोग प्रत्येक क्लस्टर के सेंटीमीटर की गणना के लिए किया जाता है।

K- साधन एल्गोरिथ्म के साथ काम करते समय हमें निम्नलिखित बातों का ध्यान रखना चाहिए -

  • के-मीन्स सहित क्लस्टरिंग एल्गोरिदम के साथ काम करते समय, डेटा को मानकीकृत करने की सिफारिश की जाती है क्योंकि ऐसे एल्गोरिदम डेटा बिंदुओं के बीच समानता को निर्धारित करने के लिए दूरी-आधारित माप का उपयोग करते हैं।

  • के-मीन्स की पुनरावृत्ति प्रकृति और सेंट्रोइड्स के यादृच्छिक आरंभीकरण के कारण, के-मीन्स एक स्थानीय इष्टतम में चिपक सकते हैं और वैश्विक इष्टतम में परिवर्तित नहीं हो सकते हैं। यही कारण है कि सेंट्रोइड्स के विभिन्न इनिशियलाइज़ेशन का उपयोग करने की सिफारिश की जाती है।

पायथन में कार्यान्वयन

K-Means क्लस्टरिंग एल्गोरिदम को लागू करने के निम्नलिखित दो उदाहरण हमें इसकी बेहतर समझ में मदद करेंगे -

उदाहरण 1

यह समझने के लिए एक सरल उदाहरण है कि k- साधन कैसे काम करता है। इस उदाहरण में, हम पहले 2D डेटा जनरेट करने जा रहे हैं जिसमें 4 अलग-अलग ब्लब्स हैं और उसके बाद परिणाम देखने के लिए k- साधन एल्गोरिथ्म लागू होगा।

सबसे पहले, हम आवश्यक पैकेज आयात करके शुरू करेंगे -

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans

निम्नलिखित कोड 2 डी उत्पन्न करेगा, जिसमें चार ब्लब्स होंगे -

from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0)

अगला, निम्नलिखित कोड हमें डेटासेट की कल्पना करने में मदद करेगा -

plt.scatter(X[:, 0], X[:, 1], s=20);
plt.show()

इसके बाद, गुच्छों की संख्या प्रदान करने के साथ केमन्स की एक वस्तु बनाएं, मॉडल को प्रशिक्षित करें और भविष्यवाणी निम्नानुसार करें -

kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

अब, निम्नलिखित कोड की मदद से हम k-Mean Python अनुमानक द्वारा उठाए गए क्लस्टर केंद्रों की साजिश और कल्पना कर सकते हैं -

plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=20, cmap='summer')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='blue', s=100, alpha=0.9);
plt.show()

उदाहरण 2

आइए हम एक और उदाहरण पर चलते हैं जिसमें हम साधारण अंकों के डेटासेट पर K- साधन क्लस्टरिंग लागू करने जा रहे हैं। K- साधन मूल लेबल जानकारी का उपयोग किए बिना समान अंकों की पहचान करने की कोशिश करेंगे।

सबसे पहले, हम आवश्यक पैकेज आयात करके शुरू करेंगे -

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans

इसके बाद, स्केलेर से डिजिट डेटा लोड करें और इसे एक ऑब्जेक्ट बनाएं। हम इस डेटासेट में पंक्तियों और स्तंभों की संख्या निम्नानुसार पा सकते हैं -

from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape

उत्पादन

(1797, 64)

उपरोक्त आउटपुट से पता चलता है कि इस डेटासेट में 64 विशेषताओं के साथ 1797 नमूने हैं।

हम क्लस्टरिंग प्रदर्शन कर सकते हैं जैसा कि हमने ऊपर उदाहरण 1 में किया था -

kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape

उत्पादन

(10, 64)

उपरोक्त आउटपुट से पता चलता है कि K-mean ने 64 विशेषताओं के साथ 10 क्लस्टर बनाए।

fig, ax = plt.subplots(2, 5, figsize=(8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
   axi.set(xticks=[], yticks=[])
   axi.imshow(center, interpolation='nearest', cmap=plt.cm.binary)

उत्पादन

उत्पादन के रूप में, हम k- साधनों द्वारा सीखे गए समूहों को दिखाते हुए निम्नलिखित छवि प्राप्त करेंगे।

कोड की निम्नलिखित पंक्तियाँ सीखे गए क्लस्टर लेबलों को उनमें पाए गए सच्चे लेबलों से मिलाएँगी -

from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
   mask = (clusters == i)
   labels[mask] = mode(digits.target[mask])[0]

अगला, हम सटीकता की जांच कर सकते हैं -

from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)

उत्पादन

0.7935447968836951

उपरोक्त आउटपुट से पता चलता है कि सटीकता लगभग 80% है।

फायदे और नुकसान

लाभ

K-Means क्लस्टरिंग एल्गोरिदम के कुछ फायदे निम्नलिखित हैं -

  • इसे समझना और लागू करना बहुत आसान है।

  • यदि हमारे पास बड़ी संख्या में चर हैं, तो के-साधन, श्रेणीबद्ध क्लस्टरिंग से तेज होगा।

  • सेंट्रोइड्स की पुन: गणना करने पर, एक उदाहरण क्लस्टर को बदल सकता है।

  • हाइरार्चिकल क्लस्टरिंग की तुलना में K- साधनों के साथ तंग क्लस्टर बनते हैं।

नुकसान

K-Means क्लस्टरिंग एल्गोरिदम के कुछ नुकसान निम्नलिखित हैं -

  • गुच्छों की संख्या अर्थात k के मान की भविष्यवाणी करना थोड़ा मुश्किल है।

  • क्लस्टर्स की संख्या (k का मान) जैसे प्रारंभिक इनपुट से आउटपुट बहुत प्रभावित होता है।

  • आर्डर ऑफ डेटा का अंतिम आउटपुट पर मजबूत प्रभाव पड़ेगा।

  • यह rescaling के लिए बहुत संवेदनशील है। यदि हम सामान्यीकरण या मानकीकरण के माध्यम से हमारे डेटा को फिर से जुटाएंगे, तो आउटपुट पूरी तरह से बदल जाएगा। आउटपुट।

  • यदि क्लस्टर में एक जटिल ज्यामितीय आकार है, तो क्लस्टरिंग कार्य करने में यह अच्छा नहीं है।

K- मीन्स क्लस्टरिंग एल्गोरिदम के अनुप्रयोग

क्लस्टर विश्लेषण के मुख्य लक्ष्य हैं -

  • हम जिस डेटा के साथ काम कर रहे हैं उससे एक सार्थक अंतर्ज्ञान प्राप्त करने के लिए।

  • क्लस्टर-तब-भविष्यवाणी जहां विभिन्न उपसमूहों के लिए अलग-अलग मॉडल बनाए जाएंगे।

उपर्युक्त लक्ष्यों को पूरा करने के लिए, K- साधन क्लस्टरिंग काफी अच्छा प्रदर्शन कर रहा है। इसका उपयोग निम्नलिखित अनुप्रयोगों में किया जा सकता है -

  • बाजार विभाजन

  • दस्तावेज़ क्लस्टरिंग

  • छवि विभाजन

  • छवि संपीड़न

  • ग्राहक विभाजन

  • गतिशील डेटा पर प्रवृत्ति का विश्लेषण