पायथन के साथ एआई - पर्यवेक्षित शिक्षण: वर्गीकरण

इस अध्याय में, हम पर्यवेक्षित शिक्षण - वर्गीकरण को लागू करने पर ध्यान केंद्रित करेंगे।

वर्गीकरण तकनीक या मॉडल देखे गए मूल्यों से कुछ निष्कर्ष निकालने का प्रयास करता है। वर्गीकरण समस्या में, हमारे पास "ब्लैक" या "व्हाइट" या "टीचिंग" और "नॉन-टीचिंग" जैसे वर्गीकृत आउटपुट हैं। वर्गीकरण मॉडल का निर्माण करते समय, हमें प्रशिक्षण डेटासेट और संबंधित लेबल वाले डेटासेट्स की आवश्यकता होती है। उदाहरण के लिए, यदि हम यह जांचना चाहते हैं कि छवि कार की है या नहीं। इसकी जाँच के लिए, हम "कार" और "नो कार" से संबंधित दो वर्गों वाले एक प्रशिक्षण डेटासेट का निर्माण करेंगे। फिर हमें प्रशिक्षण के नमूनों का उपयोग करके मॉडल को प्रशिक्षित करने की आवश्यकता है। वर्गीकरण मॉडल का उपयोग मुख्य रूप से चेहरे की पहचान, स्पैम पहचान आदि में किया जाता है।

पायथन में एक क्लासिफायरियर बनाने के लिए कदम

पायथन में एक क्लासिफायरियर बनाने के लिए, हम पायथन 3 और स्किकिट-लर्न का उपयोग करने जा रहे हैं, जो मशीन लर्निंग का एक उपकरण है। पायथन में एक क्लासिफायरियर बनाने के लिए इन चरणों का पालन करें -

चरण 1 - आयात स्किट-सीखें

पायथन में क्लासिफायर बनाने के लिए यह पहला कदम होगा। इस चरण में, हम स्किकिट-सीख नामक पायथन पैकेज स्थापित करेंगे जो कि पायथन में सर्वश्रेष्ठ मशीन लर्निंग मॉड्यूल में से एक है। निम्न आदेश हमें पैकेज को आयात करने में मदद करेगा -

Import Sklearn

चरण 2 - आयात Scitit- जानें के डाटासेट

इस चरण में, हम अपने मशीन लर्निंग मॉडल के लिए डेटासेट के साथ काम करना शुरू कर सकते हैं। यहां, हम उपयोग करने जा रहे हैंthe स्तन कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस। डेटासेट में स्तन कैंसर के ट्यूमर के साथ-साथ वर्गीकरण लेबल के बारे में विभिन्न जानकारी शामिल हैmalignant या benign। डेटासेट में 569 ट्यूमर हैं, या 569 ट्यूमर पर डेटा, और 30 विशेषताओं, या विशेषताओं, जैसे कि ट्यूमर, बनावट, चिकनाई और क्षेत्र की जानकारी शामिल है। निम्नलिखित कमांड की सहायता से, हम स्किकिट-लर्न के स्तन कैंसर डेटासेट आयात कर सकते हैं -

from sklearn.datasets import load_breast_cancer

अब, निम्न कमांड डाटासेट लोड करेगा।

data = load_breast_cancer()

निम्नलिखित महत्वपूर्ण शब्दकोश कुंजियों की एक सूची है -

  • वर्गीकरण लेबल नाम (target_names)
  • वास्तविक लेबल (लक्ष्य)
  • विशेषता / सुविधा नाम (feature_names)
  • विशेषता (डेटा)

अब, निम्नलिखित कमांड की मदद से, हम सूचना के प्रत्येक महत्वपूर्ण सेट के लिए नए चर बना सकते हैं और डेटा असाइन कर सकते हैं। दूसरे शब्दों में, हम निम्नलिखित कमांड के साथ डेटा को व्यवस्थित कर सकते हैं -

label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']

अब, यह स्पष्ट करने के लिए कि हम क्लास लेबल, पहले डेटा इंस्टेंस लेबल, हमारे फीचर नाम और फीचर की वैल्यू निम्न कमांड की मदद से प्रिंट कर सकते हैं -

print(label_names)

उपरोक्त आदेश उन वर्ग नामों को प्रिंट करेगा जो क्रमशः घातक और सौम्य हैं। इसे नीचे दिए गए आउटपुट के रूप में दिखाया गया है -

['malignant' 'benign']

अब, नीचे दिए गए आदेश से पता चलेगा कि उन्हें बाइनरी मान 0 और 1 के लिए मैप किया गया है। यहां 0 घातक कैंसर का प्रतिनिधित्व करता है और 1 सौम्य कैंसर का प्रतिनिधित्व करता है। आपको निम्न आउटपुट प्राप्त होंगे -

print(labels[0])
0

नीचे दिए गए दो कमांड फीचर नाम और फीचर वैल्यू का उत्पादन करेंगे।

print(feature_names[0])
mean radius
print(features[0])
[ 1.79900000e+01 1.03800000e+01 1.22800000e+02 1.00100000e+03
  1.18400000e-01 2.77600000e-01 3.00100000e-01 1.47100000e-01
  2.41900000e-01 7.87100000e-02 1.09500000e+00 9.05300000e-01
  8.58900000e+00 1.53400000e+02 6.39900000e-03 4.90400000e-02
  5.37300000e-02 1.58700000e-02 3.00300000e-02 6.19300000e-03
  2.53800000e+01 1.73300000e+01 1.84600000e+02 2.01900000e+03
  1.62200000e-01 6.65600000e-01 7.11900000e-01 2.65400000e-01
  4.60100000e-01 1.18900000e-01]

उपरोक्त आउटपुट से, हम देख सकते हैं कि पहला डेटा उदाहरण एक घातक ट्यूमर है जिसका त्रिज्या 1.7990000e + 01 है।

चरण 3 - डेटा को सेट में व्यवस्थित करना

इस चरण में, हम अपने डेटा को दो भागों में विभाजित करेंगे, अर्थात् एक प्रशिक्षण सेट और एक परीक्षण सेट। इन सेटों में डेटा को विभाजित करना बहुत महत्वपूर्ण है क्योंकि हमें अपने मॉडल का अनदेखी डेटा पर परीक्षण करना होगा। डेटा को सेट में विभाजित करने के लिए, स्केलेरन में एक फ़ंक्शन होता है जिसे कहा जाता हैtrain_test_split()समारोह। निम्नलिखित आदेशों की मदद से, हम इन सेटों में डेटा को विभाजित कर सकते हैं -

from sklearn.model_selection import train_test_split

उपरोक्त आदेश आयात करेगा train_test_splitस्केलेरन से फ़ंक्शन और नीचे दिए गए आदेश डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करेंगे। नीचे दिए गए उदाहरण में, हम परीक्षण के लिए 40% डेटा का उपयोग कर रहे हैं और शेष डेटा का उपयोग मॉडल के प्रशिक्षण के लिए किया जाएगा।

train, test, train_labels, test_labels = train_test_split(features,labels,test_size = 0.40, random_state = 42)

चरण 4 - मॉडल का निर्माण

इस चरण में, हम अपने मॉडल का निर्माण करेंगे। हम मॉडल के निर्माण के लिए Naïve Bayes एल्गोरिदम का उपयोग करने जा रहे हैं। मॉडल बनाने के लिए निम्न आदेशों का उपयोग किया जा सकता है -

from sklearn.naive_bayes import GaussianNB

उपरोक्त कमांड गाऊसीएनबी मॉड्यूल का आयात करेगा। अब, निम्न कमांड आपको मॉडल को इनिशियलाइज़ करने में मदद करेगी।

gnb = GaussianNB()

हम gnb.fit () का उपयोग करके इसे डेटा में फिट करके मॉडल को प्रशिक्षित करेंगे।

model = gnb.fit(train, train_labels)

चरण 5 - मॉडल और इसकी सटीकता का मूल्यांकन

इस चरण में, हम अपने परीक्षण डेटा पर भविष्यवाणियां करके मॉडल का मूल्यांकन करने जा रहे हैं। तब हमें इसकी सटीकता का भी पता चल जाएगा। पूर्वानुमान बनाने के लिए, हम पूर्वानुमान () फ़ंक्शन का उपयोग करेंगे। निम्नलिखित कमांड आपको ऐसा करने में मदद करेगी -

preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 
 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 0 0 0 0 
 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0 0 0 
 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 
 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 
 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 
 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 1]

0s और 1s की उपरोक्त श्रृंखला ट्यूमर वर्गों के लिए अनुमानित मूल्य हैं - घातक और सौम्य।

अब, दो सरणियों की तुलना करके अर्थात् test_labels तथा preds, हम अपने मॉडल की सटीकता का पता लगा सकते हैं। हम उपयोग करने जा रहे हैंaccuracy_score()सटीकता निर्धारित करने के लिए कार्य करते हैं। इसके लिए निम्नलिखित कमांड पर विचार करें -

from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels,preds))
0.951754385965

परिणाम से पता चलता है कि NaïveBayes क्लासिफायरियर 95.17% सटीक है।

इस तरह, उपरोक्त चरणों की मदद से हम पायथन में अपने क्लासिफायरियर का निर्माण कर सकते हैं।

पायथन में बिल्डिंग क्लासिफायरियर

इस खंड में, हम सीखेंगे कि पायथन में एक क्लासिफायरियर कैसे बनाया जाए।

नाओवे बेयस क्लासिफायर

नाओवे बेयस एक वर्गीकरण तकनीक है जिसका उपयोग बेयस प्रमेय का उपयोग करके क्लासिफायर बनाने के लिए किया जाता है। धारणा यह है कि भविष्यवक्ता स्वतंत्र होते हैं। सरल शब्दों में, यह मानता है कि किसी वर्ग में किसी विशेष सुविधा की उपस्थिति किसी अन्य सुविधा की उपस्थिति से संबंधित नहीं है। नाओवे बेएस क्लासिफायर के निर्माण के लिए हमें स्किटिट लर्न नामक अजगर पुस्तकालय का उपयोग करने की आवश्यकता है। नाओवे बेयस मॉडल के तीन प्रकार हैंGaussian, Multinomial and Bernoulli पैकेज के तहत सीखो।

Na buildve Bayes मशीन लर्निंग क्लासिफायर मॉडल बनाने के लिए, हमें निम्नलिखित और माइनस की आवश्यकता है

डेटासेट

हम स्तन कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस नाम के डेटासेट का उपयोग करने जा रहे हैं । डेटासेट में स्तन कैंसर के ट्यूमर के साथ-साथ वर्गीकरण लेबल के बारे में विभिन्न जानकारी शामिल हैmalignant या benign। डेटासेट में 569 ट्यूमर हैं, या 569 ट्यूमर पर डेटा, और 30 विशेषताओं, या विशेषताओं, जैसे कि ट्यूमर, बनावट, चिकनाई और क्षेत्र की जानकारी शामिल है। हम स्केलेर पैकेज से इस डेटासेट को आयात कर सकते हैं।

नाओवे बेयस मॉडल

Na ave Bayes क्लासिफायर बनाने के लिए, हमें Naïve Bayes मॉडल की आवश्यकता है। जैसा कि पहले बताया गया है, तीन प्रकार के नाओवे बेयस मॉडल हैंGaussian, Multinomial तथा Bernoulliपैकेज के तहत सीखो। यहाँ, निम्नलिखित उदाहरण में हम गाऊसी नाओवे बेव मॉडल का उपयोग करने जा रहे हैं।

उपरोक्त का उपयोग करके, हम ट्यूमर जानकारी घातक या सौम्य है या नहीं यह अनुमान लगाने के लिए ट्यूमर की जानकारी का उपयोग करने के लिए Na Bayve Bayes मशीन लर्निंग मॉडल बनाने जा रहे हैं।

के साथ शुरू करने के लिए, हमें स्केलेरन मॉड्यूल को स्थापित करने की आवश्यकता है। यह निम्नलिखित कमांड की मदद से किया जा सकता है -

Import Sklearn

अब, हमें ब्रेस्ट कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस नाम के डेटासेट को आयात करना होगा।

from sklearn.datasets import load_breast_cancer

अब, निम्न कमांड डाटासेट लोड करेगा।

data = load_breast_cancer()

डेटा को निम्नानुसार व्यवस्थित किया जा सकता है -

label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']

अब, यह स्पष्ट करने के लिए कि हम क्लास लेबल, पहले डेटा इंस्टेंस लेबल, हमारे फीचर नाम और फीचर की वैल्यू निम्नलिखित कमांड की मदद से प्रिंट कर सकते हैं -

print(label_names)

उपरोक्त आदेश उन वर्ग नामों को प्रिंट करेगा जो क्रमशः घातक और सौम्य हैं। इसे नीचे दिए गए आउटपुट के रूप में दिखाया गया है -

['malignant' 'benign']

अब, नीचे दी गई कमांड से पता चलेगा कि उन्हें बाइनरी मान 0 और 1. में मैप किया गया है। यहाँ 0 घातक कैंसर का प्रतिनिधित्व करता है और 1 सौम्य कैंसर का प्रतिनिधित्व करता है। इसे नीचे दिए गए आउटपुट के रूप में दिखाया गया है -

print(labels[0])
0

निम्नलिखित दो कमांड फीचर नाम और फीचर वैल्यू तैयार करेंगे।

print(feature_names[0])
mean radius
print(features[0])

[ 1.79900000e+01 1.03800000e+01 1.22800000e+02 1.00100000e+03
  1.18400000e-01 2.77600000e-01 3.00100000e-01 1.47100000e-01
  2.41900000e-01 7.87100000e-02 1.09500000e+00 9.05300000e-01
  8.58900000e+00 1.53400000e+02 6.39900000e-03 4.90400000e-02
  5.37300000e-02 1.58700000e-02 3.00300000e-02 6.19300000e-03
  2.53800000e+01 1.73300000e+01 1.84600000e+02 2.01900000e+03
  1.62200000e-01 6.65600000e-01 7.11900000e-01 2.65400000e-01
  4.60100000e-01 1.18900000e-01]

उपरोक्त आउटपुट से, हम देख सकते हैं कि पहला डेटा उदाहरण एक घातक ट्यूमर है जिसका मुख्य त्रिज्या 1.7990000e + 01 है।

अनदेखी मॉडल पर हमारे मॉडल का परीक्षण करने के लिए, हमें अपने डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करना होगा। यह निम्नलिखित कोड की मदद से किया जा सकता है -

from sklearn.model_selection import train_test_split

उपरोक्त आदेश आयात करेगा train_test_splitस्केलेरन से फ़ंक्शन और नीचे दिए गए आदेश डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करेंगे। नीचे दिए गए उदाहरण में, हम परीक्षण के लिए 40% डेटा का उपयोग कर रहे हैं और मॉडल को प्रशिक्षित करने के लिए रीमाइनिंग डेटा का उपयोग किया जाएगा।

train, test, train_labels, test_labels = 
train_test_split(features,labels,test_size = 0.40, random_state = 42)

अब, हम निम्नलिखित कमांड के साथ मॉडल बना रहे हैं -

from sklearn.naive_bayes import GaussianNB

उपरोक्त आदेश आयात करेगा GaussianNBमापांक। अब, नीचे दी गई कमांड के साथ, हमें मॉडल को इनिशियलाइज़ करना होगा।

gnb = GaussianNB()

हम मॉडल का उपयोग करके इसे डेटा को फिटिंग करके प्रशिक्षित करेंगे gnb.fit()

model = gnb.fit(train, train_labels)

अब, परीक्षण डेटा पर भविष्यवाणी करके मॉडल का मूल्यांकन करें और इसे निम्नानुसार किया जा सकता है -

preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 
 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 0 0 0 0 
 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0 0 0 
 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 
 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 
 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 
 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 1]

0s और 1s की उपरोक्त श्रृंखला ट्यूमर वर्गों अर्थात घातक और सौम्य के लिए अनुमानित मूल्य हैं।

अब, दो सरणियों की तुलना करके अर्थात् test_labels तथा preds, हम अपने मॉडल की सटीकता का पता लगा सकते हैं। हम उपयोग करने जा रहे हैंaccuracy_score()सटीकता निर्धारित करने के लिए कार्य करते हैं। निम्नलिखित कमांड पर विचार करें -

from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels,preds))
0.951754385965

परिणाम से पता चलता है कि Na resultveBayes क्लासिफायरियर 95.17% सटीक है।

यह मशीन सीखने का क्लासिफायर Naïve बेय गॉसियन मॉडल पर आधारित था।

वेक्टर मशीनों का समर्थन (SVM)

मूल रूप से, सपोर्ट वेक्टर मशीन (SVM) एक पर्यवेक्षित मशीन लर्निंग एल्गोरिथम है, जिसका उपयोग प्रतिगमन और वर्गीकरण दोनों के लिए किया जा सकता है। एसवीएम की मुख्य अवधारणा प्रत्येक डेटा आइटम को एन-डायमेंशनल स्पेस में एक बिंदु के रूप में प्लॉट करना है, जिसमें प्रत्येक फीचर का मूल्य एक विशेष समन्वय का मूल्य है। यहाँ n में वे विशेषताएं होंगी जो हमारे पास होंगी। एसवीएम की अवधारणा को समझने के लिए एक सरल चित्रमय प्रतिनिधित्व निम्नलिखित है -

उपरोक्त आरेख में, हमारे पास दो विशेषताएं हैं। इसलिए, हमें पहले इन दो चर को दो आयामी अंतरिक्ष में प्लॉट करने की आवश्यकता है जहां प्रत्येक बिंदु में दो सह-निर्देशांक हैं, जिन्हें समर्थन वैक्टर कहा जाता है। लाइन डेटा को दो अलग-अलग वर्गीकृत समूहों में विभाजित करती है। यह लाइन क्लासीफायर होगी।

यहां, हम scikit-learn और iris डाटासेट का उपयोग करके SVM ​​क्लासिफायर बनाने जा रहे हैं। Scikitlearn पुस्तकालय में हैsklearn.svmमॉड्यूल और वर्गीकरण के लिए sklearn.svm.svc प्रदान करता है। 4 विशेषताओं के आधार पर आईरिस प्लांट के वर्ग की भविष्यवाणी करने के लिए एसवीएम क्लासिफायरियर को नीचे दिखाया गया है।

डेटासेट

हम आईरिस डेटासेट का उपयोग करेंगे जिसमें प्रत्येक में 50 उदाहरणों के 3 वर्ग हैं, जहां प्रत्येक वर्ग एक प्रकार के आईरिस संयंत्र को संदर्भित करता है। प्रत्येक उदाहरण में चार विशेषताएं हैं जैसे कि सेपाल लंबाई, सीपाल चौड़ाई, पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई। 4 विशेषताओं के आधार पर आईरिस प्लांट के वर्ग की भविष्यवाणी करने के लिए एसवीएम क्लासिफायरियर को नीचे दिखाया गया है।

गुठली

यह एसवीएम द्वारा उपयोग की जाने वाली तकनीक है। मूल रूप से ये ऐसे कार्य हैं जो निम्न-आयामी इनपुट स्थान लेते हैं और इसे उच्च आयामी स्थान में बदलते हैं। यह गैर-अलग करने योग्य समस्या को अलग करने योग्य समस्या में परिवर्तित करता है। कर्नेल फ़ंक्शन रैखिक, बहुपद, आरबीएफ और सिग्मॉइड में से कोई भी हो सकता है। इस उदाहरण में, हम रैखिक कर्नेल का उपयोग करेंगे।

आइए अब हम निम्नलिखित पैकेजों को आयात करते हैं -

import pandas as pd
import numpy as np
from sklearn import svm, datasets
import matplotlib.pyplot as plt

अब, इनपुट डेटा लोड करें -

iris = datasets.load_iris()

हम पहले दो फीचर्स ले रहे हैं -

X = iris.data[:, :2]
y = iris.target

हम मूल डेटा के साथ समर्थन वेक्टर मशीन सीमाओं की साजिश करेंगे। हम साजिश करने के लिए एक जाल बना रहे हैं।

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
X_plot = np.c_[xx.ravel(), yy.ravel()]

हमें नियमितीकरण पैरामीटर का मान देने की आवश्यकता है।

C = 1.0

हमें SVM क्लासिफायर ऑब्जेक्ट बनाने की आवश्यकता है।

Svc_classifier = svm_classifier.SVC(kernel='linear', 
C=C, decision_function_shape = 'ovr').fit(X, y)
Z = svc_classifier.predict(X_plot)
Z = Z.reshape(xx.shape)
plt.figure(figsize = (15, 5))
plt.subplot(121)
plt.contourf(xx, yy, Z, cmap = plt.cm.tab10, alpha = 0.3)
plt.scatter(X[:, 0], X[:, 1], c = y, cmap = plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('SVC with linear kernel')

रसद प्रतिगमन

मूल रूप से, लॉजिस्टिक रिग्रेशन मॉडल पर्यवेक्षित वर्गीकरण एल्गोरिथम परिवार के सदस्यों में से एक है। लॉजिस्टिक रिग्रेशन एक लॉजिस्टिक फ़ंक्शन का उपयोग करके संभावनाओं का आकलन करके आश्रित चर और स्वतंत्र चर के बीच संबंध को मापता है।

यहां, अगर हम आश्रित और स्वतंत्र चर के बारे में बात करते हैं तो आश्रित चर लक्ष्य वर्ग चर है जिसकी हम भविष्यवाणी करने जा रहे हैं और दूसरी तरफ स्वतंत्र चर वे विशेषताएँ हैं जिनका हम लक्ष्य वर्ग की भविष्यवाणी करने के लिए उपयोग करने जा रहे हैं।

लॉजिस्टिक रिग्रेशन में, संभावनाओं का आकलन करने का अर्थ है, घटना की संभावना घटना का अनुमान लगाना। उदाहरण के लिए, दुकान का मालिक उस ग्राहक की भविष्यवाणी करना चाहेगा, जिसने दुकान में प्रवेश किया है, प्ले स्टेशन (उदाहरण के लिए) खरीदेगा या नहीं। ग्राहक की कई विशेषताएं होंगी - लिंग, आयु आदि, जो दुकान कीपर द्वारा देखे जाने की संभावना का अनुमान लगाएगा, अर्थात, प्ले स्टेशन खरीदना या नहीं। लॉजिस्टिक फ़ंक्शन सिग्मॉइड वक्र है जो फ़ंक्शन को विभिन्न मापदंडों के साथ बनाने के लिए उपयोग किया जाता है।

आवश्यक शर्तें

लॉजिस्टिक रिग्रेशन का उपयोग करके क्लासिफायर बनाने से पहले, हमें अपने सिस्टम पर टिंकर पैकेज स्थापित करना होगा। से स्थापित किया जा सकता हैhttps://docs.python.org/2/library/tkinter.html।

अब, नीचे दिए गए कोड की मदद से, हम लॉजिस्टिक रिग्रेशन का उपयोग करके एक क्लासिफायरियर बना सकते हैं -

सबसे पहले, हम कुछ पैकेज आयात करेंगे -

import numpy as np
from sklearn import linear_model
import matplotlib.pyplot as plt

अब, हमें नमूना डेटा को परिभाषित करने की आवश्यकता है जो निम्नानुसार किया जा सकता है -

X = np.array([[2, 4.8], [2.9, 4.7], [2.5, 5], [3.2, 5.5], [6, 5], [7.6, 4],
              [3.2, 0.9], [2.9, 1.9],[2.4, 3.5], [0.5, 3.4], [1, 4], [0.9, 5.9]])
y = np.array([0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3])

अगला, हमें लॉजिस्टिक रिग्रेशन क्लासिफायर बनाने की आवश्यकता है, जिसे निम्नानुसार किया जा सकता है -

Classifier_LR = linear_model.LogisticRegression(solver = 'liblinear', C = 75)

अंतिम लेकिन कम से कम नहीं, हमें इस क्लासिफायर को प्रशिक्षित करने की आवश्यकता है -

Classifier_LR.fit(X, y)

अब, हम आउटपुट की कल्पना कैसे कर सकते हैं? यह Logistic_visualize () नाम से एक फंक्शन बनाकर किया जा सकता है -

Def Logistic_visualize(Classifier_LR, X, y):
   min_x, max_x = X[:, 0].min() - 1.0, X[:, 0].max() + 1.0
   min_y, max_y = X[:, 1].min() - 1.0, X[:, 1].max() + 1.0

उपरोक्त पंक्ति में, हमने एक्स और वाई को न्यूनतम और अधिकतम मानों को ग्रिड ग्रिड में उपयोग करने के लिए परिभाषित किया है। इसके अलावा, हम मेष ग्रिड की साजिश रचने के लिए चरण आकार को परिभाषित करेंगे।

mesh_step_size = 0.02

आइए X और Y मानों की जाली ग्रिड को निम्न प्रकार से परिभाषित करें -

x_vals, y_vals = np.meshgrid(np.arange(min_x, max_x, mesh_step_size),
                 np.arange(min_y, max_y, mesh_step_size))

निम्नलिखित कोड की सहायता से, हम जाल ग्रिड पर क्लासिफायर चला सकते हैं -

output = classifier.predict(np.c_[x_vals.ravel(), y_vals.ravel()])
output = output.reshape(x_vals.shape)
plt.figure()
plt.pcolormesh(x_vals, y_vals, output, cmap = plt.cm.gray)
 
plt.scatter(X[:, 0], X[:, 1], c = y, s = 75, edgecolors = 'black', 
linewidth=1, cmap = plt.cm.Paired)

कोड की निम्नलिखित पंक्ति भूखंड की सीमाओं को निर्दिष्ट करेगी

plt.xlim(x_vals.min(), x_vals.max())
plt.ylim(y_vals.min(), y_vals.max())
plt.xticks((np.arange(int(X[:, 0].min() - 1), int(X[:, 0].max() + 1), 1.0)))
plt.yticks((np.arange(int(X[:, 1].min() - 1), int(X[:, 1].max() + 1), 1.0)))
plt.show()

अब कोड चलाने के बाद, हम निम्नलिखित आउटपुट, लॉजिस्टिक रिग्रेशन क्लासिफायर - प्राप्त करेंगे।

निर्णय ट्री क्लासिफायर

एक निर्णय वृक्ष मूल रूप से एक बाइनरी ट्री फ़्लोचार्ट है जहां प्रत्येक नोड कुछ फ़ीचर चर के अनुसार टिप्पणियों के एक समूह को विभाजित करता है।

यहां, हम पुरुष या महिला की भविष्यवाणी करने के लिए एक निर्णय ट्री क्लासिफायर का निर्माण कर रहे हैं। हम 19 नमूनों वाले एक बहुत छोटे डेटा सेट को लेंगे। इन नमूनों में दो विशेषताएं होंगी - 'ऊंचाई' और 'बालों की लंबाई'।

शर्त

निम्न क्लासिफ़ायर बनाने के लिए, हमें स्थापित करने की आवश्यकता है pydotplus तथा graphviz। मूल रूप से, ग्राफविज़, डॉट फ़ाइलों का उपयोग करके ग्राफिक्स खींचने के लिए एक उपकरण है औरpydotplusग्राफविज़ डॉट भाषा का एक मॉड्यूल है। इसे पैकेज मैनेजर या पाइप के साथ स्थापित किया जा सकता है।

अब, हम निम्नलिखित पायथन कोड की मदद से निर्णय ट्री क्लासिफायर का निर्माण कर सकते हैं -

शुरू करने के लिए, आइए हम कुछ महत्वपूर्ण पुस्तकालयों को निम्नानुसार आयात करें -

import pydotplus
from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report
from sklearn import cross_validation
import collections

अब, हमें डेटासेट इस प्रकार प्रदान करना होगा -

X = [[165,19],[175,32],[136,35],[174,65],[141,28],[176,15],[131,32],
[166,6],[128,32],[179,10],[136,34],[186,2],[126,25],[176,28],[112,38],
[169,9],[171,36],[116,25],[196,25]]

Y = ['Man','Woman','Woman','Man','Woman','Man','Woman','Man','Woman',
'Man','Woman','Man','Woman','Woman','Woman','Man','Woman','Woman','Man']
data_feature_names = ['height','length of hair']

X_train, X_test, Y_train, Y_test = cross_validation.train_test_split
(X, Y, test_size=0.40, random_state=5)

डेटासेट प्रदान करने के बाद, हमें उस मॉडल को फिट करना होगा जो निम्नानुसार किया जा सकता है -

clf = tree.DecisionTreeClassifier()
clf = clf.fit(X,Y)

निम्नलिखित पायथन कोड की मदद से भविष्यवाणी की जा सकती है -

prediction = clf.predict([[133,37]])
print(prediction)

हम निम्नलिखित पायथन कोड की मदद से निर्णय वृक्ष की कल्पना कर सकते हैं -

dot_data = tree.export_graphviz(clf,feature_names = data_feature_names,
            out_file = None,filled = True,rounded = True)
graph = pydotplus.graph_from_dot_data(dot_data)
colors = ('orange', 'yellow')
edges = collections.defaultdict(list)

for edge in graph.get_edge_list():
edges[edge.get_source()].append(int(edge.get_destination()))

for edge in edges: edges[edge].sort()

for i in range(2):dest = graph.get_node(str(edges[edge][i]))[0]
dest.set_fillcolor(colors[i])
graph.write_png('Decisiontree16.png')

यह उपरोक्त कोड के लिए पूर्वानुमान देगा [‘Woman’] और निम्नलिखित निर्णय पेड़ बनाएँ -

हम परीक्षण करने के लिए भविष्यवाणी में सुविधाओं के मूल्यों को बदल सकते हैं।

रैंडम वन क्लासिफायर

जैसा कि हम जानते हैं कि पहनावा विधियाँ वे विधियाँ हैं जो मशीन लर्निंग मॉडल को एक अधिक शक्तिशाली मशीन लर्निंग मॉडल में जोड़ती हैं। रैंडम फॉरेस्ट, निर्णय पेड़ों का एक संग्रह, उनमें से एक है। यह सिंगल डिसीजन ट्री से बेहतर है क्योंकि प्रेडिक्टिव शक्तियां बरकरार रखते हुए यह परिणामों के औसत से ओवर-फिटिंग को कम कर सकता है। यहां, हम कर्क राशि जानने के लिए scikit पर यादृच्छिक वन मॉडल लागू करने जा रहे हैं।

आवश्यक पैकेज आयात करें -

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
import matplotlib.pyplot as plt
import numpy as np

अब, हमें वह डेटासेट प्रदान करने की आवश्यकता है जो निम्न प्रकार से और माइनस के रूप में किया जा सकता है

cancer = load_breast_cancer()
X_train, X_test, y_train,
y_test = train_test_split(cancer.data, cancer.target, random_state = 0)

डेटासेट प्रदान करने के बाद, हमें उस मॉडल को फिट करना होगा जो निम्नानुसार किया जा सकता है -

forest = RandomForestClassifier(n_estimators = 50, random_state = 0)
forest.fit(X_train,y_train)

अब, प्रशिक्षण के साथ-साथ उप-परीक्षण की सटीकता प्राप्त करें: यदि हम अनुमानकों की संख्या में वृद्धि करेंगे, तो परीक्षण उप-समूह की सटीकता भी बढ़ जाएगी।

print('Accuracy on the training subset:(:.3f)',format(forest.score(X_train,y_train)))
print('Accuracy on the training subset:(:.3f)',format(forest.score(X_test,y_test)))

उत्पादन

Accuracy on the training subset:(:.3f) 1.0
Accuracy on the training subset:(:.3f) 0.965034965034965

अब, निर्णय वृक्ष की तरह, यादृच्छिक वन है feature_importanceमॉड्यूल जो निर्णय पेड़ की तुलना में सुविधा वजन का एक बेहतर दृश्य प्रदान करेगा। यह निम्नानुसार कथानक और कल्पना कर सकता है -

n_features = cancer.data.shape[1]
plt.barh(range(n_features),forest.feature_importances_, align='center')
plt.yticks(np.arange(n_features),cancer.feature_names)
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.show()

एक क्लासिफायरियर का प्रदर्शन

मशीन लर्निंग एल्गोरिदम को लागू करने के बाद, हमें यह पता लगाना होगा कि मॉडल कितना प्रभावी है। प्रभावशीलता को मापने के लिए मापदंड डेटासेट और मीट्रिक पर आधारित हो सकते हैं। अलग-अलग मशीन लर्निंग एल्गोरिदम के मूल्यांकन के लिए, हम विभिन्न प्रदर्शन मीट्रिक का उपयोग कर सकते हैं। उदाहरण के लिए, मान लें कि एक क्लासिफायरियर का उपयोग विभिन्न वस्तुओं की छवियों के बीच अंतर करने के लिए किया जाता है, तो हम वर्गीकरण प्रदर्शन मैट्रिक्स का उपयोग कर सकते हैं जैसे कि औसत सटीकता, एयूसी, आदि। एक या अन्य अर्थों में, मीट्रिक जिसे हम अपने मशीन लर्निंग मॉडल का मूल्यांकन करने के लिए चुनते हैं। बहुत महत्वपूर्ण है क्योंकि मैट्रिक्स की पसंद प्रभावित करती है कि मशीन लर्निंग एल्गोरिदम का प्रदर्शन कैसे मापा और तुलना किया जाता है। निम्नलिखित कुछ मैट्रिक्स हैं -

असमंजस का जाल

मूल रूप से इसका उपयोग वर्गीकरण की समस्या के लिए किया जाता है जहां उत्पादन दो या दो से अधिक प्रकार की कक्षाओं का हो सकता है। यह एक क्लासिफायरियर के प्रदर्शन को मापने का सबसे आसान तरीका है। एक भ्रम मैट्रिक्स मूल रूप से दो आयामों के साथ एक तालिका है, जिसका नाम "वास्तविक" और "अनुमानित" है। दोनों आयामों में "ट्रू पॉजिटिव्स (टीपी)", "ट्रू नेगेटिव्स (टीएन)", "गलत पॉजिटिव्स (एफपी)", "गलत नेगेटिव्स (एफएन)" हैं।

उपरोक्त भ्रम मैट्रिक्स में, 1 सकारात्मक वर्ग के लिए है और 0 नकारात्मक वर्ग के लिए है।

कन्फ्यूजन मैट्रिक्स से जुड़ी शर्तें निम्नलिखित हैं -

  • True Positives − टीपी ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 1 था और भविष्यवाणी भी 1 है।

  • True Negatives − टीएन ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 0 था और अनुमानित भी 0 है।

  • False Positives − एफपी ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 0 था और भविष्यवाणी 1 भी है।

  • False Negatives − एफएन ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 1 था और अनुमानित भी 0 है।

शुद्धता

भ्रम मैट्रिक्स अपने आप में एक प्रदर्शन माप नहीं है, लेकिन लगभग सभी प्रदर्शन मैट्रिक्स भ्रम मैट्रिक्स पर आधारित होते हैं। उनमें से एक सटीकता है। वर्गीकरण की समस्याओं में, इसे मॉडल द्वारा की गई सभी प्रकार की भविष्यवाणियों के सही अनुमानों की संख्या के रूप में परिभाषित किया जा सकता है। सटीकता की गणना करने का सूत्र इस प्रकार है -

$ $ सटीकता = \ frac {TP + TN} {TP + FP + FN + TN} $ $

शुद्धता

यह ज्यादातर दस्तावेज़ पुनर्प्राप्ति में उपयोग किया जाता है। यह परिभाषित किया जा सकता है कि लौटे दस्तावेजों में से कितने सही हैं। निम्नलिखित परिशुद्धता की गणना के लिए सूत्र है -

$$ परिशुद्धता = \ frac {TP} {TP + FP} $ $

स्मरण या संवेदनशीलता

इसे इस रूप में परिभाषित किया जा सकता है कि मॉडल कितने सकारात्मक रिटर्न देता है। मॉडल की याद / संवेदनशीलता की गणना के लिए सूत्र निम्नलिखित है -

$ $ याद = \ frac {TP} {TP + FN} $ $

विशेषता

यह परिभाषित किया जा सकता है कि मॉडल कितने नकारात्मक रिटर्न देता है। यह याद करने के लिए बिल्कुल विपरीत है। निम्नलिखित मॉडल की विशिष्टता की गणना करने का सूत्र है -

$ $ विशिष्टता = \ frac {TN} {TN + FP} $ $

कक्षा असंतुलन की समस्या

वर्ग असंतुलन वह परिदृश्य है जहां एक वर्ग से संबंधित टिप्पणियों की संख्या अन्य वर्गों से संबंधित लोगों की तुलना में काफी कम है। उदाहरण के लिए, यह समस्या उस परिदृश्य में प्रमुख है जहां हमें दुर्लभ बीमारियों, बैंक में धोखाधड़ी के लेनदेन आदि की पहचान करने की आवश्यकता है।

असंतुलित वर्गों का उदाहरण

आइए हम असंतुलित वर्ग की अवधारणा को समझने के लिए सेट किए गए धोखाधड़ी का पता लगाने वाले डेटा का एक उदाहरण देखें

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

उपाय

Balancing the classes’असंतुलित कक्षाओं के समाधान के रूप में कार्य करता है। वर्गों को संतुलित करने का मुख्य उद्देश्य या तो अल्पसंख्यक वर्ग की आवृत्ति को बढ़ाना है या बहुमत वर्ग की आवृत्ति को कम करना है। असंतुलन कक्षाओं के मुद्दे को हल करने के लिए दृष्टिकोण निम्नलिखित हैं -

फिर से नमूने

पुनः-नमूना नमूना डेटा सेटों के पुनर्निर्माण के लिए उपयोग की जाने वाली विधियों की एक श्रृंखला है - प्रशिक्षण सेट और परीक्षण सेट दोनों। मॉडल की सटीकता में सुधार के लिए पुन: नमूना लिया जाता है। निम्नलिखित कुछ फिर से नमूने लेने की तकनीकें हैं -

  • Random Under-Sampling- इस तकनीक का उद्देश्य बहुसंख्यक वर्ग के उदाहरणों को बेतरतीब ढंग से समाप्त करके वर्ग वितरण को संतुलित करना है। यह तब तक किया जाता है जब तक कि बहुसंख्यक और अल्पसंख्यक वर्ग के उदाहरण संतुलित नहीं हो जाते।

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

इस मामले में, हम गैर-धोखाधड़ी उदाहरणों से प्रतिस्थापन के बिना 10% नमूने ले रहे हैं और फिर उन्हें धोखाधड़ी के उदाहरणों के साथ जोड़ सकते हैं -

नमूने के तहत यादृच्छिक के बाद गैर-कपटपूर्ण टिप्पणियों = 4950 = 495 का 10%

कपटपूर्ण टिप्पणियों के साथ संयोजन के बाद कुल अवलोकन = 50 + 495 = 545

इसलिए अब, नमूनाकरण के तहत नए डेटासेट के लिए घटना दर = 9%

इस तकनीक का मुख्य लाभ यह है कि यह रन समय को कम कर सकता है और भंडारण में सुधार कर सकता है। लेकिन दूसरी तरफ, यह प्रशिक्षण डेटा नमूनों की संख्या को कम करते हुए उपयोगी जानकारी को छोड़ सकता है।

  • Random Over-Sampling - इस तकनीक का उद्देश्य अल्पसंख्यक वर्ग में उदाहरणों की संख्या बढ़ाकर वर्ग वितरण को संतुलित करना है।

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

यदि हम 30 बार तो 50 फर्जी टिप्पणियों का प्रतिकार कर रहे हैं, तो अल्पसंख्यक वर्ग के टिप्पणियों की नकल करने के बाद धोखाधड़ी करने वाले अवलोकन 1500 होंगे। और फिर ओवरसैंपलिंग के बाद नए डेटा में कुल अवलोकन 4950 + 1500 = 6450 होगा। इसलिए नए डेटा सेट के लिए घटना दर 1500/6450 = 23% होगा।

इस पद्धति का मुख्य लाभ यह है कि उपयोगी जानकारी का कोई नुकसान नहीं होगा। लेकिन दूसरी तरफ, इसमें अति-फिटिंग की संभावना बढ़ जाती है क्योंकि यह अल्पसंख्यक वर्ग की घटनाओं की नकल करता है।

तकनीक को इकट्ठा करना

इस पद्धति का उपयोग मूल रूप से मौजूदा वर्गीकरण एल्गोरिदम को संशोधित करने के लिए किया जाता है ताकि उन्हें असंतुलित डेटा सेट के लिए उपयुक्त बनाया जा सके। इस दृष्टिकोण में हम मूल डेटा से कई दो स्टेज क्लासिफायर का निर्माण करते हैं और फिर उनकी भविष्यवाणियों को एकत्र करते हैं। रैंडम वन क्लासिफायर, पहनावा आधारित क्लासिफायरियर का उदाहरण है।