बिग डेटा एनालिटिक्स - निर्णय पेड़
डिसीजन ट्री एक एल्गोरिथ्म है जिसका उपयोग वर्गीकरण या प्रतिगमन जैसी पर्यवेक्षित शिक्षण समस्याओं के लिए किया जाता है। एक निर्णय वृक्ष या एक वर्गीकरण पेड़ एक ऐसा वृक्ष है जिसमें प्रत्येक आंतरिक (नॉनफ़्लफ़) नोड को एक इनपुट सुविधा के साथ लेबल किया जाता है। एक फीचर के साथ लेबल किए गए नोड से आने वाले आर्क को फीचर के प्रत्येक संभावित मान के साथ लेबल किया जाता है। पेड़ के प्रत्येक पत्ते को एक वर्ग या वर्गों पर संभाव्यता वितरण के साथ लेबल किया जाता है।
विशेषता मान परीक्षण के आधार पर सबसेट में सेट किए गए स्रोत को विभाजित करके एक पेड़ को "सीखा" जा सकता है। यह प्रक्रिया प्रत्येक व्युत्पन्न उपसमुच्चय पर पुनरावर्ती तरीके से दोहराई जाती है जिसे कहा जाता हैrecursive partitioning। पुनरावर्तन तब पूर्ण होता है जब किसी नोड पर सबसेट में लक्ष्य चर के सभी समान मूल्य होते हैं, या जब विभाजन नहीं होता है तो भविष्यवाणियों में मूल्य जुड़ता है। निर्णय पेड़ों के शीर्ष-डाउन प्रेरण की यह प्रक्रिया एक लालची एल्गोरिथ्म का एक उदाहरण है, और यह निर्णय पेड़ों को सीखने के लिए सबसे आम रणनीति है।
डेटा माइनिंग में इस्तेमाल होने वाले निर्णय के पेड़ दो मुख्य प्रकार के होते हैं -
Classification tree - जब प्रतिक्रिया एक नाममात्र चर है, उदाहरण के लिए यदि कोई ईमेल स्पैम है या नहीं।
Regression tree - जब अनुमानित परिणाम को एक वास्तविक संख्या माना जा सकता है (जैसे एक कार्यकर्ता का वेतन)।
निर्णय पेड़ एक सरल विधि है, और जैसे कुछ समस्याएं हैं। इस मुद्दे में से एक परिणामी मॉडल में उच्च विचरण है जो निर्णय पेड़ों का उत्पादन करते हैं। इस समस्या को कम करने के लिए, निर्णय पेड़ों के कलाकारों की टुकड़ी विकसित की गई थी। वर्तमान में बड़े पैमाने पर इस्तेमाल किए जाने वाले पहनावा के तरीकों के दो समूह हैं -
Bagging decision trees- इन पेड़ों को रिप्लेसमेंट के साथ बार-बार ट्रेनिंग डेटा को रीसम्प्लिमेंट करके और आम सहमति की भविष्यवाणी के लिए पेड़ों को वोट देकर कई डिसीजन ट्री बनाने के लिए इस्तेमाल किया जाता है। इस एल्गोरिथम को यादृच्छिक वन कहा गया है।
Boosting decision trees- धीरे-धीरे बूस्टिंग कमजोर शिक्षार्थियों को जोड़ती है; इस मामले में, पेड़ों को एक मजबूत शिक्षार्थी के रूप में तय किया जाता है, एक पुनरावृत्त फैशन में। यह डेटा के लिए एक कमजोर पेड़ फिट बैठता है और पिछले मॉडल की त्रुटि को ठीक करने के लिए पुनरावृति कमजोर शिक्षार्थियों को फिट रखता है।
# Install the party package
# install.packages('party')
library(party)
library(ggplot2)
head(diamonds)
# We will predict the cut of diamonds using the features available in the
diamonds dataset.
ct = ctree(cut ~ ., data = diamonds)
# plot(ct, main="Conditional Inference Tree")
# Example output
# Response: cut
# Inputs: carat, color, clarity, depth, table, price, x, y, z
# Number of observations: 53940
#
# 1) table <= 57; criterion = 1, statistic = 10131.878
# 2) depth <= 63; criterion = 1, statistic = 8377.279
# 3) table <= 56.4; criterion = 1, statistic = 226.423
# 4) z <= 2.64; criterion = 1, statistic = 70.393
# 5) clarity <= VS1; criterion = 0.989, statistic = 10.48
# 6) color <= E; criterion = 0.997, statistic = 12.829
# 7)* weights = 82
# 6) color > E
#Table of prediction errors
table(predict(ct), diamonds$cut)
# Fair Good Very Good Premium Ideal
# Fair 1388 171 17 0 14
# Good 102 2912 499 26 27
# Very Good 54 998 3334 249 355
# Premium 44 711 5054 11915 1167
# Ideal 22 114 3178 1601 19988
# Estimated class probabilities
probs = predict(ct, newdata = diamonds, type = "prob")
probs = do.call(rbind, probs)
head(probs)