स्किकिट जानें - निर्णय पेड़
इस अध्याय में, हम Sklearn में सीखने की विधि के बारे में जानेंगे जिसे निर्णय वृक्ष कहा जाता है।
निर्णय ट्रेस (DTs) सबसे शक्तिशाली गैर-पैरामीट्रिक पर्यवेक्षित शिक्षण पद्धति है। उनका उपयोग वर्गीकरण और प्रतिगमन कार्यों के लिए किया जा सकता है। डीटीएस का मुख्य लक्ष्य एक मॉडल बनाना है जो डेटा फीचर्स से घटाए गए सरल निर्णय नियमों को सीखकर लक्ष्य परिवर्तनीय मूल्य का अनुमान लगाता है। निर्णय पेड़ों की दो मुख्य संस्थाएँ हैं; एक रूट नोड है, जहां डेटा विभाजित होता है, और अन्य निर्णय नोड्स या पत्ते होते हैं, जहां हमें अंतिम आउटपुट मिला।
निर्णय ट्री एल्गोरिदम
विभिन्न निर्णय ट्री एल्गोरिदम को नीचे समझाया गया है -
ID3
यह रॉस क्विनलान द्वारा 1986 में विकसित किया गया था। इसे Iterative Dichotomiser 3 भी कहा जाता है। इस एल्गोरिदम का मुख्य लक्ष्य उन सभी नोडल विशेषताओं को खोजना है, जो प्रत्येक नोड के लिए, श्रेणीबद्ध लक्ष्यों के लिए सबसे बड़ी सूचना प्राप्त करेंगे।
यह पेड़ को उनके अधिकतम आकार के लिए उगाया जाता है और फिर अनदेखी डेटा पर पेड़ की क्षमता में सुधार करने के लिए एक प्रूनिंग चरण लागू होता है। इस एल्गोरिदम का आउटपुट एक मल्टीवे ट्री होगा।
C4.5
यह ID3 का उत्तराधिकारी है और गतिशील रूप से एक असतत विशेषता को परिभाषित करता है जो निरंतर गुण मान को अंतराल के असतत सेट में विभाजित करता है। यही कारण है कि इसने श्रेणीबद्ध विशेषताओं के प्रतिबंध को हटा दिया। यह ID3 प्रशिक्षित वृक्ष को 'IF-THEN' नियमों के समुच्चय में परिवर्तित करता है।
उस क्रम को निर्धारित करने के लिए जिसमें इन नियमों को लागू किया जाना चाहिए, पहले प्रत्येक नियम की सटीकता का मूल्यांकन किया जाएगा।
C5.0
यह C4.5 के समान काम करता है, लेकिन यह कम मेमोरी का उपयोग करता है और छोटे नियम बनाता है। यह C4.5 से अधिक सटीक है।
कार्ट
इसे वर्गीकरण और प्रतिगमन पेड़ अल्गोरिद्म कहा जाता है। यह मूल रूप से सुविधाओं का उपयोग करके बाइनरी स्प्लिट्स उत्पन्न करता है और प्रत्येक नोड पर सबसे बड़ी जानकारी हासिल करने वाली सीमा (जिनि सूचकांक) कहा जाता है।
Homogeneity Gini Index पर निर्भर करती है, Gini Index का मान जितना अधिक होगा, उच्च समरूपता होगी। यह C4.5 एल्गोरिथ्म की तरह है, लेकिन, अंतर यह है कि यह नियम सेट की गणना नहीं करता है और साथ ही संख्यात्मक लक्ष्य चर (प्रतिगमन) का समर्थन नहीं करता है।
निर्णय पेड़ों के साथ वर्गीकरण
इस मामले में, निर्णय चर स्पष्ट हैं।
Sklearn Module - स्किटिट-लर्न लाइब्रेरी मॉड्यूल नाम प्रदान करता है DecisionTreeClassifier डेटासेट पर मल्टीक्लास वर्गीकरण करने के लिए।
मापदंडों
निम्न तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn.tree.DecisionTreeClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | criterion - स्ट्रिंग, वैकल्पिक डिफ़ॉल्ट = "गिन्नी" यह विभाजन की गुणवत्ता को मापने के लिए कार्य का प्रतिनिधित्व करता है। समर्थित मानदंड "गिन्नी" और "एन्ट्रॉपी" हैं। डिफ़ॉल्ट गिन्नी है जो कि गिन्नी अशुद्धता के लिए है जबकि एन्ट्रापी सूचना लाभ के लिए है। |
2 | splitter - स्ट्रिंग, वैकल्पिक डिफ़ॉल्ट = "सर्वश्रेष्ठ" यह मॉडल को बताता है कि प्रत्येक नोड में विभाजन का चयन करने के लिए "सर्वश्रेष्ठ" या "यादृच्छिक" से कौन सी रणनीति है। |
3 | max_depth - int या कोई नहीं, वैकल्पिक डिफ़ॉल्ट = कोई नहीं यह पैरामीटर पेड़ की अधिकतम गहराई तय करता है। डिफ़ॉल्ट मान कोई भी नहीं है जिसका अर्थ है कि नोड्स का विस्तार तब तक होगा जब तक कि सभी पत्ते शुद्ध नहीं होते हैं या जब तक सभी पत्तियों में min_smaples_split नमूने से कम नहीं होते हैं। |
4 | min_samples_split - int, फ्लोट, वैकल्पिक डिफ़ॉल्ट = 2 यह पैरामीटर आंतरिक नोड को विभाजित करने के लिए आवश्यक न्यूनतम नमूने प्रदान करता है। |
5 | min_samples_leaf - int, फ्लोट, वैकल्पिक डिफ़ॉल्ट = 1 यह पैरामीटर पत्ती नोड पर होने के लिए आवश्यक न्यूनतम नमूने प्रदान करता है। |
6 | min_weight_fraction_leaf - फ्लोट, वैकल्पिक डिफ़ॉल्ट = 0। इस पैरामीटर के साथ, मॉडल को एक लीफ नोड पर होने वाले आवश्यक भार का न्यूनतम भारित अंश मिलेगा। |
7 | max_features - int, फ्लोट, स्ट्रिंग या कोई नहीं, वैकल्पिक डिफ़ॉल्ट = कोई नहीं यह मॉडल को सर्वश्रेष्ठ विभाजन की तलाश करते समय विचार की जाने वाली सुविधाओं की संख्या देता है। |
8 | random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -
|
9 | max_leaf_nodes - int या कोई नहीं, वैकल्पिक डिफ़ॉल्ट = कोई नहीं यह पैरामीटर सर्वश्रेष्ठ-प्रथम फ़ैशन में एक पेड़ को max_leaf_nodes के साथ बढ़ने देगा। डिफ़ॉल्ट कोई भी नहीं है जिसका अर्थ है कि असीमित संख्या में पत्ती नोड्स होंगे। |
10 | min_impurity_decrease - फ्लोट, वैकल्पिक डिफ़ॉल्ट = 0। यह मान विभाजित करने के लिए नोड के लिए एक मानदंड के रूप में काम करता है क्योंकि मॉडल एक नोड को विभाजित करेगा यदि यह विभाजन अशुद्धता की कमी को इससे अधिक या बराबर करता है min_impurity_decrease value। |
1 1 | min_impurity_split - फ्लोट, डिफ़ॉल्ट = 1e-7 यह वृक्षों के विकास में शुरुआती रोक के लिए सीमा का प्रतिनिधित्व करता है। |
12 | class_weight - तानाशाही, dicts की सूची, "संतुलित" या कोई नहीं, डिफ़ॉल्ट = कोई नहीं यह कक्षाओं के साथ जुड़े वजन का प्रतिनिधित्व करता है। फॉर्म {class_label: वजन} है। यदि हम डिफ़ॉल्ट विकल्प का उपयोग करते हैं, तो इसका मतलब है कि सभी वर्गों का वजन एक होना चाहिए। दूसरी ओर, यदि आप चुनते हैंclass_weight: balanced, यह स्वचालित रूप से वजन को समायोजित करने के लिए y के मूल्यों का उपयोग करेगा। |
13 | presort - बूल, वैकल्पिक डिफ़ॉल्ट = गलत यह मॉडल को बताता है कि क्या फिटिंग में सर्वश्रेष्ठ विभाजन की खोज में तेजी लाने के लिए डेटा को निर्धारित करना है। डिफ़ॉल्ट गलत है लेकिन सही पर सेट है, यह प्रशिक्षण प्रक्रिया को धीमा कर सकता है। |
गुण
निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn.tree.DecisionTreeClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | feature_importances_ आकार की सरणी = [n_features] यह विशेषता सुविधा के महत्व को लौटाएगी। |
2 | classes_: आकार की सरणी = [n_classes] या ऐसे सरणियों की एक सूची यह कक्षाओं के लेबल यानी एकल आउटपुट समस्या या वर्ग लेबल के सरणियों की सूची अर्थात बहु-आउटपुट समस्या का प्रतिनिधित्व करता है। |
3 | max_features_ - इंट यह max_features पैरामीटर के घटाए गए मूल्य का प्रतिनिधित्व करता है। |
4 | n_classes_ - int या सूची यह कक्षाओं की संख्या अर्थात एकल आउटपुट समस्या या हर आउटपुट यानी बहु-आउटपुट समस्या के वर्गों की संख्या का प्रतिनिधित्व करता है। |
5 | n_features_ - इंट की संख्या देता है features जब फिट () विधि की जाती है। |
6 | n_outputs_ - इंट की संख्या देता है outputs जब फिट () विधि की जाती है। |
तरीकों
निम्नलिखित तालिका में उपयोग की जाने वाली विधियाँ शामिल हैं sklearn.tree.DecisionTreeClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | apply(स्व, एक्स [, check_input]) यह विधि पत्ती के सूचकांक को वापस कर देगी। |
2 | decision_path(स्व, एक्स [, check_input]) जैसा कि नाम से पता चलता है, यह विधि पेड़ में निर्णय पथ को वापस कर देगी |
3 | fit(स्व, एक्स, वाई [, नमूना_वेट,…]) फिट () विधि दिए गए प्रशिक्षण सेट (एक्स, वाई) से एक निर्णय ट्री क्लासिफायर का निर्माण करेगी। |
4 | get_depth(स्वयं) जैसा कि नाम से पता चलता है, यह विधि निर्णय पेड़ की गहराई को वापस कर देगी |
5 | get_n_leaves(स्वयं) जैसा कि नाम से पता चलता है, यह विधि निर्णय पेड़ की पत्तियों की संख्या को वापस कर देगी। |
6 | get_params(स्व [, गहरा]) हम अनुमानक के लिए पैरामीटर प्राप्त करने के लिए इस पद्धति का उपयोग कर सकते हैं। |
7 | predict(स्व, एक्स [, check_input]) यह एक्स के लिए वर्ग मूल्य की भविष्यवाणी करेगा। |
8 | predict_log_proba(स्व, एक्स) यह हमारे द्वारा प्रदान किए गए इनपुट नमूनों की कक्षा लॉग-संभाव्यता की भविष्यवाणी करेगा, एक्स। |
9 | predict_proba(स्व, एक्स [, check_input]) यह हमारे द्वारा प्रदान किए गए इनपुट नमूनों की वर्ग संभावनाओं की भविष्यवाणी करेगा, एक्स। |
10 | score(स्व, एक्स, वाई [, नमूना_वेट]) जैसा कि नाम से ही स्पष्ट है, स्कोर () विधि दिए गए परीक्षण डेटा और लेबल पर औसत सटीकता लौटाएगा। |
1 1 | set_params(स्वयं, \ * \ * परम) हम इस विधि के साथ अनुमानक के मापदंडों को निर्धारित कर सकते हैं। |
कार्यान्वयन उदाहरण
नीचे पायथन लिपि का उपयोग होगा sklearn.tree.DecisionTreeClassifier हमारे डेटा सेट से पुरुष या महिला की भविष्यवाणी के लिए एक क्लासिफायरियर बनाने के लिए मॉड्यूल जिसमें 25 नमूने और दो विशेषताएं हैं 'ऊंचाई' और 'बालों की लंबाई' -
from sklearn import tree
from sklearn.model_selection import train_test_split
X=[[165,19],[175,32],[136,35],[174,65],[141,28],[176,15]
,[131,32],[166,6],[128,32],[179,10],[136,34],[186,2],[12
6,25],[176,28],[112,38],[169,9],[171,36],[116,25],[196,2
5], [196,38], [126,40], [197,20], [150,25], [140,32],[136,35]]
Y=['Man','Woman','Woman','Man','Woman','Man','Woman','Ma
n','Woman','Man','Woman','Man','Woman','Woman','Woman','
Man','Woman','Woman','Man', 'Woman', 'Woman', 'Man', 'Man', 'Woman', 'Woman']
data_feature_names = ['height','length of hair']
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, random_state = 1)
DTclf = tree.DecisionTreeClassifier()
DTclf = clf.fit(X,Y)
prediction = DTclf.predict([[135,29]])
print(prediction)
उत्पादन
['Woman']
हम भी निम्नानुसार python predict_proba () विधि का उपयोग करके प्रत्येक वर्ग की संभावना का अनुमान लगा सकते हैं -
उदाहरण
prediction = DTclf.predict_proba([[135,29]])
print(prediction)
उत्पादन
[[0. 1.]]
निर्णय पेड़ों के साथ प्रतिगमन
इस मामले में निर्णय चर निरंतर हैं।
Sklearn Module - स्किटिट-लर्न लाइब्रेरी मॉड्यूल नाम प्रदान करता है DecisionTreeRegressor प्रतिगमन समस्याओं पर निर्णय पेड़ लगाने के लिए।
मापदंडों
द्वारा उपयोग किए गए पैरामीटर DecisionTreeRegressor लगभग उसी रूप में हैं जिसका उपयोग किया गया था DecisionTreeClassifierमापांक। अंतर 'मानदंड' पैरामीटर में है। के लियेDecisionTreeRegressor मॉड्यूल ‘criterion: स्ट्रिंग, वैकल्पिक डिफ़ॉल्ट = "mse" पैरामीटर में निम्न मान हैं -
mse- यह मतलब चुकता त्रुटि के लिए खड़ा है। यह सुविधा चयन कसौटी के रूप में विचरण में कमी के बराबर है। यह प्रत्येक टर्मिनल नोड के माध्य का उपयोग करके L2 हानि को कम करता है।
freidman_mse - यह माध्य चुकता त्रुटि का भी उपयोग करता है लेकिन फ्राइडमैन के सुधार स्कोर के साथ।
mae- यह मतलब पूर्ण त्रुटि के लिए खड़ा है। यह प्रत्येक टर्मिनल नोड के माध्यिका का उपयोग करके L1 हानि को कम करता है।
एक और अंतर यह है कि यह नहीं है ‘class_weight’ पैरामीटर।
गुण
की विशेषताएँ DecisionTreeRegressor जैसे हैं वैसे ही थे DecisionTreeClassifierमापांक। अंतर यह है कि यह नहीं है‘classes_’ तथा ‘n_classes_'गुण।
तरीकों
के तरीके DecisionTreeRegressor जैसे हैं वैसे ही थे DecisionTreeClassifierमापांक। अंतर यह है कि यह नहीं है‘predict_log_proba()’ तथा ‘predict_proba()’'गुण।
कार्यान्वयन उदाहरण
निर्णय वृक्ष प्रतिगमन मॉडल में फिट () विधि y के अस्थायी बिंदु मान लेगा। चलो का उपयोग करके एक सरल कार्यान्वयन उदाहरण देखेंSklearn.tree.DecisionTreeRegressor -
from sklearn import tree
X = [[1, 1], [5, 5]]
y = [0.1, 1.5]
DTreg = tree.DecisionTreeRegressor()
DTreg = clf.fit(X, y)
एक बार फिट होने के बाद, हम इस प्रतिगमन मॉडल का उपयोग भविष्यवाणी करने के लिए कर सकते हैं -
DTreg.predict([[4, 5]])
उत्पादन
array([1.5])