वर्गीकरण एल्गोरिदम - निर्णय ट्री
निर्णय वृक्ष का परिचय
सामान्य तौर पर, डिसीजन ट्री एनालिसिस एक प्रेडिक्टिव मॉडलिंग टूल है जिसे कई क्षेत्रों में लागू किया जा सकता है। निर्णय पेड़ों का निर्माण एक एल्गोरिथम दृष्टिकोण द्वारा किया जा सकता है जो विभिन्न स्थितियों के आधार पर अलग-अलग तरीकों से डेटासेट को विभाजित कर सकता है। निर्णय ट्रेस सबसे शक्तिशाली एल्गोरिदम हैं जो पर्यवेक्षित एल्गोरिदम की श्रेणी में आते हैं।
उनका उपयोग वर्गीकरण और प्रतिगमन कार्यों दोनों के लिए किया जा सकता है। एक पेड़ की दो मुख्य इकाइयां निर्णय नोड हैं, जहां डेटा विभाजित होता है और छोड़ देता है, जहां हमें परिणाम मिला है। यह अनुमान लगाने के लिए एक द्विआधारी वृक्ष का उदाहरण कि क्या कोई व्यक्ति फिट है या अनफिट है जैसे उम्र, खाने की आदतों और व्यायाम की आदतों के बारे में विभिन्न जानकारी प्रदान करता है -
उपरोक्त निर्णय वृक्ष में, प्रश्न निर्णय नोड हैं और अंतिम परिणाम पत्तियां हैं। हमारे पास निम्नलिखित दो प्रकार के निर्णय वृक्ष हैं -
Classification decision trees- इस तरह के निर्णय पेड़ों में, निर्णय चर स्पष्ट है। उपरोक्त निर्णय वृक्ष वर्गीकरण निर्णय वृक्ष का एक उदाहरण है।
Regression decision trees - इस तरह के निर्णय पेड़ों में, निर्णय चर निरंतर है।
निर्णय ट्री एल्गोरिदम को लागू करना
गनी सूचकांक
यह लागत फ़ंक्शन का नाम है जिसका उपयोग डेटासेट में बाइनरी स्प्लिट्स का मूल्यांकन करने के लिए किया जाता है और श्रेणीबद्ध लक्ष्य चर "सफलता" या "विफलता" के साथ काम करता है।
गनी इंडेक्स का मूल्य अधिक, समरूपता का उच्चतर। एक सही गिन्नी इंडेक्स वैल्यू 0 है और सबसे खराब 0.5 (2 क्लास की समस्या के लिए) है। विभाजन के लिए गिन्नी सूचकांक की गणना निम्नलिखित चरणों की मदद से की जा सकती है -
सबसे पहले, सूत्र p ^ 2 + q ^ 2 का उपयोग करके उप-नोड्स के लिए गिन्नी इंडेक्स की गणना करें, जो सफलता और विफलता के लिए संभावना के वर्ग का योग है।
इसके बाद, उस विभाजन के प्रत्येक नोड के भारित Gini स्कोर का उपयोग करके विभाजन के लिए Gini सूचकांक की गणना करें।
वर्गीकरण और प्रतिगमन ट्री (कार्ट) एल्गोरिथ्म द्विआधारी विभाजन उत्पन्न करने के लिए गिन्नी विधि का उपयोग करता है।
स्प्लिट क्रिएशन
एक विभाजन मूल रूप से डेटासेट में एक विशेषता और एक मूल्य शामिल है। हम निम्नलिखित तीन भागों की सहायता से डेटासेट में एक विभाजन बना सकते हैं -
Part1: Calculating Gini Score - हमने पिछले भाग में इस भाग पर चर्चा की है।
Part2: Splitting a dataset- इसे किसी विशेषता के सूचकांक और उस विशेषता के विभाजन मान वाली दो सूचियों में डेटासेट को अलग करने के रूप में परिभाषित किया जा सकता है। डेटासेट से दो समूहों - दाएं और बाएं, को प्राप्त करने के बाद, हम पहले भाग में गणना किए गए गिन्नी स्कोर का उपयोग करके विभाजन के मूल्य की गणना कर सकते हैं। स्प्लिट वैल्यू यह तय करेगी कि विशेषता किस समूह में रहेगी।
Part3: Evaluating all splits- गिन्नी स्कोर और स्प्लिटिंग डेटासेट को खोजने के बाद अगला भाग सभी विभाजन का मूल्यांकन है। इस उद्देश्य के लिए, पहले, हमें प्रत्येक विशेषता से जुड़े प्रत्येक मूल्य को एक उम्मीदवार के विभाजन के रूप में जांचना चाहिए। फिर हमें विभाजन की लागत का मूल्यांकन करके सर्वोत्तम संभव विभाजन खोजने की आवश्यकता है। सबसे अच्छा विभाजन निर्णय पेड़ में एक नोड के रूप में इस्तेमाल किया जाएगा।
एक पेड़ का निर्माण
जैसा कि हम जानते हैं कि एक पेड़ में रूट नोड और टर्मिनल नोड होते हैं। रूट नोड बनाने के बाद, हम दो भागों का पालन करके पेड़ का निर्माण कर सकते हैं -
भाग 1: टर्मिनल नोड निर्माण
निर्णय वृक्ष के टर्मिनल नोड्स बनाते समय, एक महत्वपूर्ण बिंदु यह तय करना है कि बढ़ते पेड़ को रोकने के लिए या आगे टर्मिनल नोड्स बनाने के लिए कब। यह दो मानदंडों का उपयोग करके किया जा सकता है अर्थात् अधिकतम वृक्ष की गहराई और न्यूनतम नोड रिकॉर्ड निम्नानुसार हैं -
Maximum Tree Depth- जैसा कि नाम से पता चलता है, यह रूट नोड के बाद एक पेड़ में नोड्स की अधिकतम संख्या है। एक पेड़ को अधिकतम गहराई पर पहुंचने के बाद हमें एक बार टर्मिनल नोड्स जोड़ना बंद कर देना चाहिए।
Minimum Node Records- इसे प्रशिक्षण पैटर्न की न्यूनतम संख्या के रूप में परिभाषित किया जा सकता है जो किसी दिए गए नोड के लिए जिम्मेदार है। एक बार इन न्यूनतम नोड रिकॉर्ड पर या इस न्यूनतम से नीचे तक पहुंचने पर हमें टर्मिनल नोड्स जोड़ना बंद कर देना चाहिए।
टर्मिनल नोड का उपयोग अंतिम भविष्यवाणी करने के लिए किया जाता है।
भाग 2: पुनरावर्ती विभाजन
जैसा कि हमने टर्मिनल नोड्स बनाने के बारे में समझा था, अब हम अपने पेड़ का निर्माण शुरू कर सकते हैं। पुनरावर्ती विभाजन पेड़ बनाने की एक विधि है। इस विधि में, एक बार नोड बनाए जाने के बाद, हम बार-बार एक ही फ़ंक्शन को कॉल करके डेटासेट के विभाजन से उत्पन्न डेटा के प्रत्येक समूह पर बच्चे के नोड्स (मौजूदा नोड में जोड़े गए नोड्स) बना सकते हैं।
पूर्वानुमान
निर्णय वृक्ष बनाने के बाद, हमें इसके बारे में एक भविष्यवाणी करने की आवश्यकता है। मूल रूप से, भविष्यवाणी में विशेष रूप से प्रदान की गई डेटा के साथ निर्णय पेड़ को नेविगेट करना शामिल है।
हम पुनरावर्ती कार्य की सहायता से एक भविष्यवाणी कर सकते हैं, जैसा कि ऊपर किया गया था। उसी भविष्यवाणी की दिनचर्या को फिर से बाएं या बच्चे के दाएं नोड के साथ कहा जाता है।
मान्यताओं
निर्णय वृक्ष बनाते समय हम कुछ मान्यताओं के बारे में बता रहे हैं -
निर्णय पेड़ तैयार करते समय, प्रशिक्षण सेट रूट नोड के रूप में है।
डिसीजन ट्री क्लासिफायर में फीचर्स वैल्यूज को प्राथमिकता दी गई है। मामले में यदि आप निरंतर मूल्यों का उपयोग करना चाहते हैं तो उन्हें मॉडल निर्माण से पहले विवेक से किया जाना चाहिए।
विशेषता के मूल्यों के आधार पर, रिकॉर्ड पुनरावर्ती रूप से वितरित किए जाते हैं।
सांख्यिकीय दृष्टिकोण का उपयोग किसी भी नोड स्थिति आईएएस रूट नोड या आंतरिक नोड पर विशेषताओं को रखने के लिए किया जाएगा।
पायथन में कार्यान्वयन
उदाहरण
निम्नलिखित उदाहरण में, हम Pima Indian Diabetes पर Decision Tree Classifier को लागू करने जा रहे हैं -
सबसे पहले, आवश्यक अजगर पैकेज आयात करने के साथ शुरू करें -
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
इसके बाद आईरिस डेटासेट को इसके वेबलिंक से डाउनलोड करें -
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv(r"C:\pima-indians-diabetes.csv", header=None, names=col_names)
pima.head()
pregnant glucose bp skin insulin bmi pedigree age label
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
3 1 89 66 23 94 28.1 0.167 21 0
4 0 137 40 35 168 43.1 2.288 33 1
अब, डेटासेट को फीचर्स में विभाजित करें और वेरिएबल को निम्नानुसार लक्षित करें -
feature_cols = ['pregnant', 'insulin', 'bmi', 'age','glucose','bp','pedigree']
X = pima[feature_cols] # Features
y = pima.label # Target variable
अगला, हम डेटा को ट्रेन और परीक्षण विभाजन में विभाजित करेंगे। निम्नलिखित कोड डेटासेट को 70% प्रशिक्षण डेटा और 30% परीक्षण डेटा में विभाजित करेगा -
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
इसके बाद, स्केनर्स के डिसीजनट्रीक्लासीफायर क्लास की मदद से मॉडल को निम्नानुसार प्रशिक्षित करें -
clf = DecisionTreeClassifier()
clf = clf.fit(X_train,y_train)
अंत में हमें भविष्यवाणी करने की आवश्यकता है। यह निम्नलिखित स्क्रिप्ट की मदद से किया जा सकता है -
y_pred = clf.predict(X_test)
इसके बाद, हम सटीकता स्कोर, भ्रम मैट्रिक्स और वर्गीकरण रिपोर्ट निम्नानुसार प्राप्त कर सकते हैं -
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
उत्पादन
Confusion Matrix:
[[116 30]
[ 46 39]]
Classification Report:
precision recall f1-score support
0 0.72 0.79 0.75 146
1 0.57 0.46 0.51 85
micro avg 0.67 0.67 0.67 231
macro avg 0.64 0.63 0.63 231
weighted avg 0.66 0.67 0.66 231
Accuracy: 0.670995670995671
दृश्य निर्णय वृक्ष
उपरोक्त निर्णय वृक्ष की कल्पना निम्नलिखित कोड की मदद से की जा सकती है -
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
from IPython.display import Image
import pydotplus
dot_data = StringIO()
export_graphviz(clf, out_file=dot_data,
filled=True, rounded=True,
special_characters=True,feature_names = feature_cols,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_png('Pima_diabetes_Tree.png')
Image(graph.create_png())