बिग डेटा एनालिटिक्स - निर्णय पेड़

डिसीजन ट्री एक एल्गोरिथ्म है जिसका उपयोग वर्गीकरण या प्रतिगमन जैसी पर्यवेक्षित शिक्षण समस्याओं के लिए किया जाता है। एक निर्णय वृक्ष या एक वर्गीकरण पेड़ एक ऐसा वृक्ष है जिसमें प्रत्येक आंतरिक (नॉनफ़्लफ़) नोड को एक इनपुट सुविधा के साथ लेबल किया जाता है। एक फीचर के साथ लेबल किए गए नोड से आने वाले आर्क को फीचर के प्रत्येक संभावित मान के साथ लेबल किया जाता है। पेड़ के प्रत्येक पत्ते को एक वर्ग या वर्गों पर संभाव्यता वितरण के साथ लेबल किया जाता है।

विशेषता मान परीक्षण के आधार पर सबसेट में सेट किए गए स्रोत को विभाजित करके एक पेड़ को "सीखा" जा सकता है। यह प्रक्रिया प्रत्येक व्युत्पन्न उपसमुच्चय पर पुनरावर्ती तरीके से दोहराई जाती है जिसे कहा जाता हैrecursive partitioning। पुनरावर्तन तब पूर्ण होता है जब किसी नोड पर सबसेट में लक्ष्य चर के सभी समान मूल्य होते हैं, या जब विभाजन नहीं होता है तो भविष्यवाणियों में मूल्य जुड़ता है। निर्णय पेड़ों के शीर्ष-डाउन प्रेरण की यह प्रक्रिया एक लालची एल्गोरिथ्म का एक उदाहरण है, और यह निर्णय पेड़ों को सीखने के लिए सबसे आम रणनीति है।

डेटा माइनिंग में इस्तेमाल होने वाले निर्णय के पेड़ दो मुख्य प्रकार के होते हैं -

  • Classification tree - जब प्रतिक्रिया एक नाममात्र चर है, उदाहरण के लिए यदि कोई ईमेल स्पैम है या नहीं।

  • Regression tree - जब अनुमानित परिणाम को एक वास्तविक संख्या माना जा सकता है (जैसे एक कार्यकर्ता का वेतन)।

निर्णय पेड़ एक सरल विधि है, और जैसे कुछ समस्याएं हैं। इस मुद्दे में से एक परिणामी मॉडल में उच्च विचरण है जो निर्णय पेड़ों का उत्पादन करते हैं। इस समस्या को कम करने के लिए, निर्णय पेड़ों के कलाकारों की टुकड़ी विकसित की गई थी। वर्तमान में बड़े पैमाने पर इस्तेमाल किए जाने वाले पहनावा के तरीकों के दो समूह हैं -

  • Bagging decision trees- इन पेड़ों को रिप्लेसमेंट के साथ बार-बार ट्रेनिंग डेटा को रीसम्प्लिमेंट करके और आम सहमति की भविष्यवाणी के लिए पेड़ों को वोट देकर कई डिसीजन ट्री बनाने के लिए इस्तेमाल किया जाता है। इस एल्गोरिथम को यादृच्छिक वन कहा गया है।

  • Boosting decision trees- धीरे-धीरे बूस्टिंग कमजोर शिक्षार्थियों को जोड़ती है; इस मामले में, पेड़ों को एक मजबूत शिक्षार्थी के रूप में तय किया जाता है, एक पुनरावृत्त फैशन में। यह डेटा के लिए एक कमजोर पेड़ फिट बैठता है और पिछले मॉडल की त्रुटि को ठीक करने के लिए पुनरावृति कमजोर शिक्षार्थियों को फिट रखता है।

# Install the party package
# install.packages('party') 
library(party) 
library(ggplot2)  

head(diamonds) 
# We will predict the cut of diamonds using the features available in the 
diamonds dataset. 
ct = ctree(cut ~ ., data = diamonds) 

# plot(ct, main="Conditional Inference Tree") 
# Example output 
# Response:  cut  
# Inputs:  carat, color, clarity, depth, table, price, x, y, z  

# Number of observations:  53940  
#  
# 1) table <= 57; criterion = 1, statistic = 10131.878 
#   2) depth <= 63; criterion = 1, statistic = 8377.279 
#     3) table <= 56.4; criterion = 1, statistic = 226.423 
#       4) z <= 2.64; criterion = 1, statistic = 70.393 
#         5) clarity <= VS1; criterion = 0.989, statistic = 10.48 
#           6) color <= E; criterion = 0.997, statistic = 12.829 
#             7)*  weights = 82  
#           6) color > E  

#Table of prediction errors 
table(predict(ct), diamonds$cut) 
#            Fair  Good Very Good Premium Ideal 
# Fair       1388   171        17       0    14 
# Good        102  2912       499      26    27 
# Very Good    54   998      3334     249   355 
# Premium      44   711      5054   11915  1167 
# Ideal        22   114      3178    1601 19988 
# Estimated class probabilities 
probs = predict(ct, newdata = diamonds, type = "prob") 
probs = do.call(rbind, probs) 
head(probs)