वर्गीकरण - परिचय

वर्गीकरण का परिचय

वर्गीकृत मानों या दिए गए डेटा बिंदुओं से वर्ग या श्रेणी की भविष्यवाणी करने की प्रक्रिया के रूप में परिभाषित किया जा सकता है। श्रेणीबद्ध आउटपुट में "ब्लैक" या "व्हाइट" या "स्पैम" या "नो स्पैम" जैसे रूप हो सकते हैं।

गणितीय रूप से, वर्गीकरण इनपुट चर (एक्स) से आउटपुट चर (वाई) से एक मैपिंग फ़ंक्शन (एफ) को अनुमानित करने का कार्य है। यह मूल रूप से पर्यवेक्षित मशीन लर्निंग से संबंधित है जिसमें इनपुट डेटा सेट के साथ लक्ष्य भी प्रदान किए जाते हैं।

वर्गीकरण समस्या का एक उदाहरण ईमेल में स्पैम का पता लगाना हो सकता है। आउटपुट की केवल दो श्रेणियां हो सकती हैं, "स्पैम" और "नो स्पैम"; इसलिए यह एक द्विआधारी प्रकार का वर्गीकरण है।

इस वर्गीकरण को लागू करने के लिए, हमें पहले क्लासिफायरियर को प्रशिक्षित करना होगा। इस उदाहरण के लिए, "स्पैम" और "नो स्पैम" ईमेल का उपयोग प्रशिक्षण डेटा के रूप में किया जाएगा। क्लासिफायरियर को सफलतापूर्वक प्रशिक्षित करने के बाद, इसका उपयोग किसी अज्ञात ईमेल का पता लगाने के लिए किया जा सकता है।

वर्गीकरण में शिक्षार्थियों के प्रकार

वर्गीकरण समस्याओं के संबंध में हमारे पास दो प्रकार के शिक्षार्थी हैं -

आलसी शिक्षार्थी

जैसा कि नाम से पता चलता है, प्रशिक्षण डेटा के भंडारण के बाद इस तरह के शिक्षार्थी परीक्षण डेटा का इंतजार करते हैं। परीक्षण डेटा प्राप्त करने के बाद ही वर्गीकरण किया जाता है। वे प्रशिक्षण पर कम समय देते हैं लेकिन भविष्यवाणी करने में अधिक समय देते हैं। आलसी शिक्षार्थियों के उदाहरण K- निकटतम पड़ोसी और केस-आधारित तर्क हैं।

ईगर लर्नर्स

आलसी शिक्षार्थियों के विपरीत, उत्सुक शिक्षार्थियों ने प्रशिक्षण डेटा के भंडारण के बाद दिखाई देने वाले परीक्षण डेटा की प्रतीक्षा किए बिना वर्गीकरण मॉडल का निर्माण किया। वे प्रशिक्षण पर अधिक समय बिताते हैं लेकिन भविष्यवाणी करने में कम समय देते हैं। उत्सुक शिक्षार्थियों के उदाहरण निर्णय पेड़, Na Bayve Bayes और कृत्रिम तंत्रिका नेटवर्क (ANN) हैं।

पायथन में एक क्लासिफायरियर का निर्माण

स्किकिट-लर्न, मशीन लर्निंग के लिए पायथन लाइब्रेरी का उपयोग पायथन में एक क्लासिफायर बनाने के लिए किया जा सकता है। पायथन में एक क्लासिफायर बनाने के चरण इस प्रकार हैं -

Step1: आवश्यक अजगर पैकेज आयात करना

स्किटिट-लर्न का उपयोग करके एक क्लासिफायरियर बनाने के लिए, हमें इसे आयात करने की आवश्यकता है। हम निम्नलिखित स्क्रिप्ट का उपयोग करके इसे आयात कर सकते हैं -

import sklearn

Step2: डेटासेट आयात करना

आवश्यक पैकेज आयात करने के बाद, हमें वर्गीकरण भविष्यवाणी मॉडल बनाने के लिए एक डेटासेट की आवश्यकता होती है। हम इसे स्केलेरियन डेटासेट से आयात कर सकते हैं या अपनी आवश्यकता के अनुसार अन्य का उपयोग कर सकते हैं। हम स्केलेर के ब्रैस्ट कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस का उपयोग करने जा रहे हैं। हम इसे निम्नलिखित स्क्रिप्ट की सहायता से आयात कर सकते हैं -

from sklearn.datasets import load_breast_cancer

निम्नलिखित स्क्रिप्ट डाटासेट लोड करेगा;

data = load_breast_cancer()

हमें डेटा को व्यवस्थित करने की भी आवश्यकता है और यह निम्नलिखित स्क्रिप्ट की मदद से किया जा सकता है -

label_names = data['target_names']
   labels = data['target']
   feature_names = data['feature_names']
   features = data['data']

निम्न कमांड लेबल का नाम प्रिंट करेगी, 'malignant' तथा 'benign'हमारे डेटाबेस के मामले में।

print(label_names)

उपरोक्त कमांड का आउटपुट लेबल के नाम हैं -

['malignant' 'benign']

ये लेबल बाइनरी मान 0 और 1 के लिए मैप किए गए हैं। Malignant कैंसर का प्रतिनिधित्व 0 और द्वारा किया जाता है Benign कैंसर का प्रतिनिधित्व 1 से होता है।

इन लेबल के फ़ीचर नाम और फ़ीचर वैल्यू निम्न कमांड की मदद से देखे जा सकते हैं -

print(feature_names[0])

उपरोक्त कमांड का आउटपुट लेबल 0 के लिए सुविधाओं का नाम है Malignant कैंसर -

mean radius

इसी तरह, लेबल के लिए सुविधाओं के नाम निम्नानुसार उत्पादित किए जा सकते हैं -

print(feature_names[1])

उपरोक्त कमांड का आउटपुट लेबल 1 के लिए सुविधाओं का नाम है Benign कैंसर -

mean texture

हम निम्नलिखित कमांड की मदद से इन लेबलों के लिए सुविधाओं को प्रिंट कर सकते हैं -

print(features[0])

यह निम्न आउटपुट देगा -

[
   1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
   1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
   6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
   1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
   4.601e-01 1.189e-01
]

हम निम्नलिखित कमांड की मदद से इन लेबलों के लिए सुविधाओं को प्रिंट कर सकते हैं -

print(features[1])

यह निम्न आउटपुट देगा -

[
   2.057e+01 1.777e+01 1.329e+02 1.326e+03 8.474e-02 7.864e-02 8.690e-02
   7.017e-02 1.812e-01 5.667e-02 5.435e-01 7.339e-01 3.398e+00 7.408e+01
   5.225e-03 1.308e-02 1.860e-02 1.340e-02 1.389e-02 3.532e-03 2.499e+01
   2.341e+01 1.588e+02 1.956e+03 1.238e-01 1.866e-01 2.416e-01 1.860e-01
   2.750e-01 8.902e-02
]

Step3: प्रशिक्षण और परीक्षण सेट में डेटा का आयोजन

जैसा कि हमें अनदेखी मॉडल पर अपने मॉडल का परीक्षण करने की आवश्यकता है, हम अपने डेटासेट को दो भागों में विभाजित करेंगे: एक प्रशिक्षण सेट और एक परीक्षण सेट। हम डेटा को सेट में विभाजित करने के लिए sklearn python पैकेज के train_test_split () फ़ंक्शन का उपयोग कर सकते हैं। निम्न कमांड फ़ंक्शन आयात करेगा -

from sklearn.model_selection import train_test_split

अब, अगला कमांड डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करेगा। इस उदाहरण में, हम परीक्षण उद्देश्य के लिए डेटा का 40 प्रतिशत और प्रशिक्षण उद्देश्य के लिए 60 प्रतिशत डेटा का उपयोग कर रहे हैं -

train, test, train_labels, test_labels = train_test_split(
   features,labels,test_size = 0.40, random_state = 42
)

Step4: मॉडल मूल्यांकन

प्रशिक्षण और परीक्षण में डेटा को विभाजित करने के बाद हमें मॉडल बनाने की आवश्यकता है। हम इस उद्देश्य के लिए Na willve Bayes एल्गोरिथ्म का उपयोग करेंगे। निम्नलिखित आदेशों को गौसियनबीबी मॉड्यूल आयात करेगा -

from sklearn.naive_bayes import GaussianNB

अब, इस प्रकार मॉडल को इनिशियलाइज़ करें -

gnb = GaussianNB()

अगला, निम्नलिखित कमांड की मदद से हम मॉडल को प्रशिक्षित कर सकते हैं -

model = gnb.fit(train, train_labels)

अब, मूल्यांकन के उद्देश्य के लिए हमें भविष्यवाणियाँ करने की आवश्यकता है। यह निम्नानुसार भविष्यवाणी () फ़ंक्शन का उपयोग करके किया जा सकता है -

preds = gnb.predict(test)
print(preds)

यह निम्न आउटपुट देगा -

[
   1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1
   0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1
   1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0
   0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 1 1
   1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 
   1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 
   1

]

उत्पादन में 0 और 1s की उपरोक्त श्रृंखला के लिए अनुमानित मूल्य हैं Malignant तथा Benign ट्यूमर कक्षाएं।

चरण 5: सटीकता का पता लगाना

हम दो सरणियों अर्थात् test_labels और पूर्व की तुलना करके पिछले चरण में मॉडल निर्माण की सटीकता पा सकते हैं। हम सटीकता निर्धारित करने के लिए सटीकता_सर्किट () फ़ंक्शन का उपयोग करेंगे।

from sklearn.metrics import accuracy_score
   print(accuracy_score(test_labels,preds))
   0.951754385965

उपरोक्त आउटपुट से पता चलता है कि NaïveBayes क्लासिफायरियर 95.17% सटीक है।

वर्गीकरण मूल्यांकन मेट्रिक्स

यदि आपने अपने मशीन लर्निंग एप्लीकेशन या मॉडल का क्रियान्वयन पूरा कर लिया है तब भी नौकरी नहीं की जाती है। हमें यह पता लगाना होगा कि हमारा मॉडल कितना प्रभावी है? अलग-अलग मूल्यांकन मीट्रिक हो सकते हैं, लेकिन हमें इसे सावधानी से चुनना चाहिए क्योंकि मैट्रिक्स की पसंद प्रभावित करती है कि मशीन लर्निंग एल्गोरिदम का प्रदर्शन कैसे मापा और तुलना किया जाता है।

निम्नलिखित कुछ महत्वपूर्ण वर्गीकरण मूल्यांकन मैट्रिक्स हैं जिनमें से आप अपने डेटासेट और तरह की समस्या के आधार पर चुन सकते हैं -

असमंजस का जाल

यह एक वर्गीकरण समस्या के प्रदर्शन को मापने का सबसे आसान तरीका है जहां आउटपुट दो या अधिक प्रकार की कक्षाओं का हो सकता है। एक भ्रम मैट्रिक्स कुछ नहीं है, लेकिन दो आयामों वाली एक तालिका है। "वास्तविक" और "पूर्वानुमानित" और इसके बाद, दोनों आयामों में "ट्रू पॉज़िटिव्स (टीपी)", "ट्रू नेगेटिव्स (टीएन)", "गलत पॉज़िटिव्स (एफपी)", "गलत नकारात्मक (एफएन)" जैसा कि नीचे दिखाया गया है।

भ्रम मैट्रिक्स से जुड़े शब्दों की व्याख्या इस प्रकार है -

  • True Positives (TP) - यह तब होता है जब डेटा बिंदु का वास्तविक वर्ग और अनुमानित कक्षा दोनों 1 है।

  • True Negatives (TN) - यह मामला है जब वास्तविक बिंदु और अनुमानित बिंदु दोनों डेटा बिंदु 0 है।

  • False Positives (FP) - ऐसा तब होता है जब डेटा बिंदु का वास्तविक वर्ग 0 होता है और डेटा बिंदु का अनुमानित वर्ग 1 होता है।

  • False Negatives (FN) - यह तब होता है जब डेटा बिंदु का वास्तविक वर्ग 1 होता है और डेटा बिंदु का अनुमानित वर्ग 0 होता है।

हम sklearn के confusion_matrix () फ़ंक्शन की सहायता से भ्रम मैट्रिक्स को ढूंढ सकते हैं। निम्नलिखित लिपि की सहायता से, हम ऊपर निर्मित बाइनरी क्लासिफायर का भ्रम मैट्रिक्स पा सकते हैं -

from sklearn.metrics import confusion_matrix

उत्पादन

[
   [ 73   7]
   [  4 144]
]

शुद्धता

इसे हमारे एमएल मॉडल द्वारा की गई सही भविष्यवाणियों की संख्या के रूप में परिभाषित किया जा सकता है। हम निम्न सूत्र की सहायता से भ्रम मैट्रिक्स द्वारा आसानी से गणना कर सकते हैं -

$$ = \ frac {+} {} +++ $$

ऊपर निर्मित बाइनरी क्लासिफायरियर के लिए, टीपी + टीएन = 73 + 144 = 217 और टीपी + एफपी + एफएन + टीएन = 73 + 7 + 4 + 144 = 228।

इसलिए, सटीकता = 217/228 = 0.951754385965 जो कि हमारे बाइनरी क्लासिफायरियर बनाने के बाद की गणना के समान है।

शुद्धता

दस्तावेज़ पुनर्प्राप्ति में प्रयुक्त परिशुद्धता, को हमारे एमएल मॉडल द्वारा लौटाए गए सही दस्तावेजों की संख्या के रूप में परिभाषित किया जा सकता है। हम निम्न सूत्र की सहायता से भ्रम मैट्रिक्स द्वारा आसानी से गणना कर सकते हैं -

$$ = \ frac {} {+ एफपी} $$

उपरोक्त निर्मित बाइनरी क्लासिफायर के लिए, टीपी = 73 और टीपी + एफपी = 73 + 7 = 80।

इसलिए, परिशुद्धता = 73/80 = 0.915

स्मरण या संवेदनशीलता

हमारे एमएल मॉडल द्वारा दी गई सकारात्मकता की संख्या के रूप में याद किया जा सकता है। हम निम्न सूत्र की सहायता से भ्रम मैट्रिक्स द्वारा आसानी से गणना कर सकते हैं -

$$ = \ frac {} {+ एफ एन} $$

ऊपर निर्मित बाइनरी क्लासिफायर के लिए, टीपी = 73 और टीपी + एफएन = 73 + 4 = 77।

इसलिए, परिशुद्धता = 73/77 = 0.94805

विशेषता

याद के विपरीत, विशिष्टता, हमारे एमएल मॉडल द्वारा लौटाई गई नकारात्मक की संख्या के रूप में परिभाषित की जा सकती है। हम निम्न सूत्र की सहायता से भ्रम मैट्रिक्स द्वारा आसानी से गणना कर सकते हैं -

$$ = \ frac {n} {एन एफपी} $$

उपरोक्त निर्मित बाइनरी क्लासिफायर के लिए, TN = 144 और TN + FP = 144 + 7 = 151।

इसलिए, परिशुद्धता = 144/151 = 0.95364

विभिन्न एमएल वर्गीकरण एल्गोरिदम

निम्नलिखित कुछ महत्वपूर्ण एमएल वर्गीकरण एल्गोरिदम हैं -

  • रसद प्रतिगमन

  • समर्थन वेक्टर मशीन (SVM)

  • निर्णय वृक्ष

  • नावे बे

  • बेतरतीब जंगल

हम आगे के अध्यायों में इन सभी वर्गीकरण एल्गोरिदम पर विस्तार से चर्चा करेंगे।

अनुप्रयोग

वर्गीकरण एल्गोरिदम के सबसे महत्वपूर्ण अनुप्रयोगों में से कुछ इस प्रकार हैं -

  • वाक् पहचान

  • हस्तलिपि अभिज्ञान

  • बॉयोमीट्रिक पहचान

  • दस्तावेज़ वर्गीकरण