वर्गीकरण एल्गोरिदम - निर्णय ट्री

निर्णय वृक्ष का परिचय

सामान्य तौर पर, डिसीजन ट्री एनालिसिस एक प्रेडिक्टिव मॉडलिंग टूल है जिसे कई क्षेत्रों में लागू किया जा सकता है। निर्णय पेड़ों का निर्माण एक एल्गोरिथम दृष्टिकोण द्वारा किया जा सकता है जो विभिन्न स्थितियों के आधार पर अलग-अलग तरीकों से डेटासेट को विभाजित कर सकता है। निर्णय ट्रेस सबसे शक्तिशाली एल्गोरिदम हैं जो पर्यवेक्षित एल्गोरिदम की श्रेणी में आते हैं।

उनका उपयोग वर्गीकरण और प्रतिगमन कार्यों दोनों के लिए किया जा सकता है। एक पेड़ की दो मुख्य इकाइयां निर्णय नोड हैं, जहां डेटा विभाजित होता है और छोड़ देता है, जहां हमें परिणाम मिला है। यह अनुमान लगाने के लिए एक द्विआधारी वृक्ष का उदाहरण कि क्या कोई व्यक्ति फिट है या अनफिट है जैसे उम्र, खाने की आदतों और व्यायाम की आदतों के बारे में विभिन्न जानकारी प्रदान करता है -

उपरोक्त निर्णय वृक्ष में, प्रश्न निर्णय नोड हैं और अंतिम परिणाम पत्तियां हैं। हमारे पास निम्नलिखित दो प्रकार के निर्णय वृक्ष हैं -

  • Classification decision trees- इस तरह के निर्णय पेड़ों में, निर्णय चर स्पष्ट है। उपरोक्त निर्णय वृक्ष वर्गीकरण निर्णय वृक्ष का एक उदाहरण है।

  • Regression decision trees - इस तरह के निर्णय पेड़ों में, निर्णय चर निरंतर है।

निर्णय ट्री एल्गोरिदम को लागू करना

गनी सूचकांक

यह लागत फ़ंक्शन का नाम है जिसका उपयोग डेटासेट में बाइनरी स्प्लिट्स का मूल्यांकन करने के लिए किया जाता है और श्रेणीबद्ध लक्ष्य चर "सफलता" या "विफलता" के साथ काम करता है।

गनी इंडेक्स का मूल्य अधिक, समरूपता का उच्चतर। एक सही गिन्नी इंडेक्स वैल्यू 0 है और सबसे खराब 0.5 (2 क्लास की समस्या के लिए) है। विभाजन के लिए गिन्नी सूचकांक की गणना निम्नलिखित चरणों की मदद से की जा सकती है -

  • सबसे पहले, सूत्र p ^ 2 + q ^ 2 का उपयोग करके उप-नोड्स के लिए गिन्नी इंडेक्स की गणना करें, जो सफलता और विफलता के लिए संभावना के वर्ग का योग है।

  • इसके बाद, उस विभाजन के प्रत्येक नोड के भारित Gini स्कोर का उपयोग करके विभाजन के लिए Gini सूचकांक की गणना करें।

वर्गीकरण और प्रतिगमन ट्री (कार्ट) एल्गोरिथ्म द्विआधारी विभाजन उत्पन्न करने के लिए गिन्नी विधि का उपयोग करता है।

स्प्लिट क्रिएशन

एक विभाजन मूल रूप से डेटासेट में एक विशेषता और एक मूल्य शामिल है। हम निम्नलिखित तीन भागों की सहायता से डेटासेट में एक विभाजन बना सकते हैं -

  • Part1: Calculating Gini Score - हमने पिछले भाग में इस भाग पर चर्चा की है।

  • Part2: Splitting a dataset- इसे किसी विशेषता के सूचकांक और उस विशेषता के विभाजन मान वाली दो सूचियों में डेटासेट को अलग करने के रूप में परिभाषित किया जा सकता है। डेटासेट से दो समूहों - दाएं और बाएं, को प्राप्त करने के बाद, हम पहले भाग में गणना किए गए गिन्नी स्कोर का उपयोग करके विभाजन के मूल्य की गणना कर सकते हैं। स्प्लिट वैल्यू यह तय करेगी कि विशेषता किस समूह में रहेगी।

  • Part3: Evaluating all splits- गिन्नी स्कोर और स्प्लिटिंग डेटासेट को खोजने के बाद अगला भाग सभी विभाजन का मूल्यांकन है। इस उद्देश्य के लिए, पहले, हमें प्रत्येक विशेषता से जुड़े प्रत्येक मूल्य को एक उम्मीदवार के विभाजन के रूप में जांचना चाहिए। फिर हमें विभाजन की लागत का मूल्यांकन करके सर्वोत्तम संभव विभाजन खोजने की आवश्यकता है। सबसे अच्छा विभाजन निर्णय पेड़ में एक नोड के रूप में इस्तेमाल किया जाएगा।

एक पेड़ का निर्माण

जैसा कि हम जानते हैं कि एक पेड़ में रूट नोड और टर्मिनल नोड होते हैं। रूट नोड बनाने के बाद, हम दो भागों का पालन करके पेड़ का निर्माण कर सकते हैं -

भाग 1: टर्मिनल नोड निर्माण

निर्णय वृक्ष के टर्मिनल नोड्स बनाते समय, एक महत्वपूर्ण बिंदु यह तय करना है कि बढ़ते पेड़ को रोकने के लिए या आगे टर्मिनल नोड्स बनाने के लिए कब। यह दो मानदंडों का उपयोग करके किया जा सकता है अर्थात् अधिकतम वृक्ष की गहराई और न्यूनतम नोड रिकॉर्ड निम्नानुसार हैं -

  • Maximum Tree Depth- जैसा कि नाम से पता चलता है, यह रूट नोड के बाद एक पेड़ में नोड्स की अधिकतम संख्या है। एक पेड़ को अधिकतम गहराई पर पहुंचने के बाद हमें एक बार टर्मिनल नोड्स जोड़ना बंद कर देना चाहिए।

  • Minimum Node Records- इसे प्रशिक्षण पैटर्न की न्यूनतम संख्या के रूप में परिभाषित किया जा सकता है जो किसी दिए गए नोड के लिए जिम्मेदार है। एक बार इन न्यूनतम नोड रिकॉर्ड पर या इस न्यूनतम से नीचे तक पहुंचने पर हमें टर्मिनल नोड्स जोड़ना बंद कर देना चाहिए।

टर्मिनल नोड का उपयोग अंतिम भविष्यवाणी करने के लिए किया जाता है।

भाग 2: पुनरावर्ती विभाजन

जैसा कि हमने टर्मिनल नोड्स बनाने के बारे में समझा था, अब हम अपने पेड़ का निर्माण शुरू कर सकते हैं। पुनरावर्ती विभाजन पेड़ बनाने की एक विधि है। इस विधि में, एक बार नोड बनाए जाने के बाद, हम बार-बार एक ही फ़ंक्शन को कॉल करके डेटासेट के विभाजन से उत्पन्न डेटा के प्रत्येक समूह पर बच्चे के नोड्स (मौजूदा नोड में जोड़े गए नोड्स) बना सकते हैं।

पूर्वानुमान

निर्णय वृक्ष बनाने के बाद, हमें इसके बारे में एक भविष्यवाणी करने की आवश्यकता है। मूल रूप से, भविष्यवाणी में विशेष रूप से प्रदान की गई डेटा के साथ निर्णय पेड़ को नेविगेट करना शामिल है।

हम पुनरावर्ती कार्य की सहायता से एक भविष्यवाणी कर सकते हैं, जैसा कि ऊपर किया गया था। उसी भविष्यवाणी की दिनचर्या को फिर से बाएं या बच्चे के दाएं नोड के साथ कहा जाता है।

मान्यताओं

निर्णय वृक्ष बनाते समय हम कुछ मान्यताओं के बारे में बता रहे हैं -

  • निर्णय पेड़ तैयार करते समय, प्रशिक्षण सेट रूट नोड के रूप में है।

  • डिसीजन ट्री क्लासिफायर में फीचर्स वैल्यूज को प्राथमिकता दी गई है। मामले में यदि आप निरंतर मूल्यों का उपयोग करना चाहते हैं तो उन्हें मॉडल निर्माण से पहले विवेक से किया जाना चाहिए।

  • विशेषता के मूल्यों के आधार पर, रिकॉर्ड पुनरावर्ती रूप से वितरित किए जाते हैं।

  • सांख्यिकीय दृष्टिकोण का उपयोग किसी भी नोड स्थिति आईएएस रूट नोड या आंतरिक नोड पर विशेषताओं को रखने के लिए किया जाएगा।

पायथन में कार्यान्वयन

उदाहरण

निम्नलिखित उदाहरण में, हम Pima Indian Diabetes पर Decision Tree Classifier को लागू करने जा रहे हैं -

सबसे पहले, आवश्यक अजगर पैकेज आयात करने के साथ शुरू करें -

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

इसके बाद आईरिस डेटासेट को इसके वेबलिंक से डाउनलोड करें -

col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv(r"C:\pima-indians-diabetes.csv", header=None, names=col_names)
pima.head()
pregnant    glucose  bp    skin  insulin  bmi   pedigree    age   label
0       6         148      72    35     0       33.6    0.627     50      1
1       1         85       66    29     0       26.6    0.351     31      0
2       8         183      64     0     0       23.3    0.672     32      1
3       1         89       66    23     94      28.1    0.167     21      0
4       0         137      40    35     168     43.1    2.288     33      1

अब, डेटासेट को फीचर्स में विभाजित करें और वेरिएबल को निम्नानुसार लक्षित करें -

feature_cols = ['pregnant', 'insulin', 'bmi', 'age','glucose','bp','pedigree']
X = pima[feature_cols] # Features
y = pima.label # Target variable

अगला, हम डेटा को ट्रेन और परीक्षण विभाजन में विभाजित करेंगे। निम्नलिखित कोड डेटासेट को 70% प्रशिक्षण डेटा और 30% परीक्षण डेटा में विभाजित करेगा -

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

इसके बाद, स्केनर्स के डिसीजनट्रीक्लासीफायर क्लास की मदद से मॉडल को निम्नानुसार प्रशिक्षित करें -

clf = DecisionTreeClassifier()
clf = clf.fit(X_train,y_train)

अंत में हमें भविष्यवाणी करने की आवश्यकता है। यह निम्नलिखित स्क्रिप्ट की मदद से किया जा सकता है -

y_pred = clf.predict(X_test)

इसके बाद, हम सटीकता स्कोर, भ्रम मैट्रिक्स और वर्गीकरण रिपोर्ट निम्नानुसार प्राप्त कर सकते हैं -

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)

उत्पादन

Confusion Matrix:
[[116 30]
[ 46 39]]
Classification Report:
            precision   recall   f1-score    support
      0       0.72      0.79       0.75     146
      1       0.57      0.46       0.51     85
micro avg     0.67      0.67       0.67     231
macro avg     0.64      0.63       0.63     231
weighted avg  0.66      0.67       0.66     231

Accuracy: 0.670995670995671

दृश्य निर्णय वृक्ष

उपरोक्त निर्णय वृक्ष की कल्पना निम्नलिखित कोड की मदद से की जा सकती है -

from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
from IPython.display import Image
import pydotplus

dot_data = StringIO()
export_graphviz(clf, out_file=dot_data,
      filled=True, rounded=True,
      special_characters=True,feature_names = feature_cols,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_png('Pima_diabetes_Tree.png')
Image(graph.create_png())