स्किकिट सीखें - क्लस्टरिंग प्रदर्शन मूल्यांकन
विभिन्न कार्य हैं जिनकी सहायता से हम क्लस्टरिंग एल्गोरिदम के प्रदर्शन का मूल्यांकन कर सकते हैं।
निम्नलिखित क्लीकरिंग प्रदर्शन के मूल्यांकन के लिए स्किकिट द्वारा दिए गए कुछ महत्वपूर्ण और अधिकतर उपयोग किए गए कार्य हैं -
समायोजित रैंड इंडेक्स
रैंड इंडेक्स एक फ़ंक्शन है जो दो क्लस्टरिंग के बीच एक समानता माप की गणना करता है। इस गणना के लिए रैंड इंडेक्स सभी नमूनों और गिनती के जोड़े पर विचार करता है जो कि अनुमानित और सच्चे क्लस्टरिंग में समान या अलग-अलग समूहों में असाइन किए जाते हैं। बाद में, कच्चा रैंड इंडेक्स स्कोर निम्न सूत्र का उपयोग करके समायोजित रैंड इंडेक्स स्कोर में 'संयोग के लिए समायोजित' है -
$$ समायोजित \: आरआई = \ छोड़ दिया (आरआई-अपेक्षित _ {-} आरआई \ right) / \ छोड़ दिया (अधिकतम \ छोड़ दिया (आरआई \ right) -Expected _ {-} आरआई \ right) $$इसके दो पैरामीटर हैं labels_true, जो जमीनी सच्चाई वर्ग के लेबल है, और labels_pred, जो मूल्यांकन करने के लिए क्लस्टर लेबल हैं।
उदाहरण
from sklearn.metrics.cluster import adjusted_rand_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
adjusted_rand_score(labels_true, labels_pred)
उत्पादन
0.4444444444444445
परफेक्ट लेबलिंग को 1 और खराब लेबलिंग या स्वतंत्र लेबलिंग को 0 या नकारात्मक अंक दिया जाएगा।
पारस्परिक सूचना आधारित स्कोर
आपसी जानकारी एक कार्य है जो दो असाइनमेंट के समझौते की गणना करता है। यह क्रमपरिवर्तन की अनदेखी करता है। निम्नलिखित संस्करण उपलब्ध हैं -
सामान्यीकृत पारस्परिक जानकारी (NMI)
स्किट सीखो sklearn.metrics.normalized_mutual_info_score मापांक।
उदाहरण
from sklearn.metrics.cluster import normalized_mutual_info_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
normalized_mutual_info_score (labels_true, labels_pred)
उत्पादन
0.7611702597222881
समायोजित म्युचुअल जानकारी (AMI)
स्किट सीखो sklearn.metrics.adjusted_mutual_info_score मापांक।
उदाहरण
from sklearn.metrics.cluster import adjusted_mutual_info_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
adjusted_mutual_info_score (labels_true, labels_pred)
उत्पादन
0.4444444444444448
फाल्के-मल्लो स्कोर
फॉक्सकेस-मलोव्स फ़ंक्शन सेट के दो क्लस्टर की समानता को मापता है। इसे युग्मक सटीक और याद के ज्यामितीय माध्य के रूप में परिभाषित किया जा सकता है।
गणित के अनुसार,
$$ एफएमएस = \ frac {टी.पी.} {\ sqrt {\ छोड़ दिया (टी.पी. + एफपी \ right) \ छोड़ दिया (टी.पी. + एफ एन \ right)}} $$यहाँ, TP = True Positive - एक ही क्लस्टर से संबंधित बिंदुओं की जोड़ी की संख्या सही है और साथ ही साथ दोनों के पूर्वानुमानित लेबल भी।
FP = False Positive - सही लेबल में समान समूहों से संबंधित अंकों की जोड़ी की संख्या, लेकिन अनुमानित लेबल में नहीं।
FN = False Negative - पूर्वानुमानित लेबल में समान समूहों से संबंधित बिंदुओं की जोड़ी की संख्या लेकिन सही लेबल में नहीं।
स्किट सीखें sklearn.metrics.fowlkes_mallows_score मॉड्यूल -
उदाहरण
from sklearn.metrics.cluster import fowlkes_mallows_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
fowlkes_mallows__score (labels_true, labels_pred)
उत्पादन
0.6546536707079771
सिल्हूट गुणांक
सिल्हूट फ़ंक्शन औसत इंट्रा-क्लस्टर दूरी और प्रत्येक नमूने के लिए निकटतम निकटतम-क्लस्टर दूरी का उपयोग करके सभी नमूनों के औसत सिल्हूट गुणांक की गणना करेगा।
गणित के अनुसार,
$$ एस = \ छोड़ दिया (बा \ right) / छोड़ दिया अधिकतम \ (ए, बी \ right) $$यहां, एक इंट्रा-क्लस्टर दूरी है।
और, बी का मतलब निकटतम-क्लस्टर दूरी है।
स्किट सीखो sklearn.metrics.silhouette_score मॉड्यूल -
उदाहरण
from sklearn import metrics.silhouette_score
from sklearn.metrics import pairwise_distances
from sklearn import datasets
import numpy as np
from sklearn.cluster import KMeans
dataset = datasets.load_iris()
X = dataset.data
y = dataset.target
kmeans_model = KMeans(n_clusters = 3, random_state = 1).fit(X)
labels = kmeans_model.labels_
silhouette_score(X, labels, metric = 'euclidean')
उत्पादन
0.5528190123564091
आकस्मिकता मैट्रिक्स
यह मैट्रिक्स प्रत्येक विश्वसनीय जोड़ी के लिए अंतरंग कार्डिनैलिटी की रिपोर्ट करेगा (सही, अनुमानित)। वर्गीकरण समस्याओं के लिए भ्रम मैट्रिक्स एक वर्ग आकस्मिक मैट्रिक्स है।
स्किट सीखो sklearn.metrics.contingency_matrix मापांक।
उदाहरण
from sklearn.metrics.cluster import contingency_matrix
x = ["a", "a", "a", "b", "b", "b"]
y = [1, 1, 2, 0, 1, 2]
contingency_matrix(x, y)
उत्पादन
array([
[0, 2, 1],
[1, 1, 1]
])
उपरोक्त आउटपुट की पहली पंक्ति से पता चलता है कि तीन नमूनों में से जिनका असली क्लस्टर "a" है, उनमें से कोई भी 0 में नहीं है, दो में से 1 में 1 है और 2 में है। दूसरी तरफ, दूसरी पंक्ति से पता चलता है कि तीन नमूनों में से जिसका असली क्लस्टर "b" है, 1 में 0 है, 1 में 1 है और 1 में 2 है।