आर - निर्णय ट्री

निर्णय वृक्ष एक विकल्प है जो वृक्ष के रूप में विकल्पों और उनके परिणामों का प्रतिनिधित्व करता है। ग्राफ़ में नोड एक घटना या पसंद का प्रतिनिधित्व करते हैं और ग्राफ़ के किनारे निर्णय नियमों या शर्तों का प्रतिनिधित्व करते हैं। इसका उपयोग ज्यादातर मशीन लर्निंग और डेटा माइनिंग अनुप्रयोगों में आर का उपयोग करके किया जाता है।

निर्णय ट्रेस के उपयोग के उदाहरण हैं - किसी ईमेल को स्पैम के रूप में या स्पैम की भविष्यवाणी नहीं करना, ट्यूमर की भविष्यवाणी करना कैंसर है या इनमें से प्रत्येक में कारकों के आधार पर एक ऋण को एक अच्छे या बुरे क्रेडिट जोखिम के रूप में भविष्यवाणी करना है। आम तौर पर, एक मॉडल मनाया गया डेटा के साथ बनाया जाता है जिसे प्रशिक्षण डेटा भी कहा जाता है। तब सत्यापन डेटा का एक सेट मॉडल को सत्यापित करने और बेहतर बनाने के लिए उपयोग किया जाता है। R के पास पैकेज हैं जो निर्णय पेड़ों को बनाने और कल्पना करने के लिए उपयोग किए जाते हैं। भविष्यवक्ता चर के नए सेट के लिए, हम इस मॉडल का उपयोग डेटा की श्रेणी (हाँ / नहीं, स्पैम / स्पैम नहीं) पर निर्णय लेने के लिए करते हैं।

आर पैकेज "party" का उपयोग निर्णय वृक्ष बनाने के लिए किया जाता है।

R पैकेज स्थापित करें

पैकेज स्थापित करने के लिए R कंसोल में नीचे दिए गए कमांड का उपयोग करें। यदि कोई हो, तो आपको निर्भर पैकेज भी स्थापित करने होंगे।

install.packages("party")

पैकेज "पार्टी" का कार्य है ctree() जिसका उपयोग डिकसन ट्री बनाने और विश्लेषण करने के लिए किया जाता है।

वाक्य - विन्यास

R में निर्णय वृक्ष बनाने का मूल सिंटैक्स है -

ctree(formula, data)

निम्नलिखित मापदंडों का वर्णन है -

  • formula भविष्यवक्ता और प्रतिक्रिया चर का वर्णन करने वाला एक सूत्र है।

  • data उपयोग किए गए डेटा सेट का नाम है।

इनपुट डेटा

हम आर-इन-बिल्ट डेटा सेट नाम का उपयोग करेंगे readingSkillsएक निर्णय पेड़ बनाने के लिए। यह किसी के रीडिंगस्किल्स के स्कोर का वर्णन करता है अगर हम चर "उम्र", "जूते का आकार", "स्कोर" जानते हैं और व्यक्ति मूल वक्ता है या नहीं।

यहाँ नमूना डेटा है।

# Load the party package. It will automatically load other
# dependent packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम और चार्ट तैयार करता है -

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

उदाहरण

हम उपयोग करेंगे ctree() निर्णय पेड़ बनाने और उसके ग्राफ को देखने के लिए कार्य करें।

# Load the party package. It will automatically load other
# dependent packages.
library(party)

# Create the input data frame.
input.dat <- readingSkills[c(1:105),]

# Give the chart file a name.
png(file = "decision_tree.png")

# Create the tree.
  output.tree <- ctree(
  nativeSpeaker ~ age + shoeSize + score, 
  data = input.dat)

# Plot the tree.
plot(output.tree)

# Save the file.
dev.off()

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

null device 
          1 
Loading required package: methods
Loading required package: grid
Loading required package: mvtnorm
Loading required package: modeltools
Loading required package: stats4
Loading required package: strucchange
Loading required package: zoo

Attaching package: ‘zoo’

The following objects are masked from ‘package:base’:

   as.Date, as.Date.numeric

Loading required package: sandwich

निष्कर्ष

ऊपर दिखाए गए निर्णय के पेड़ से हम यह निष्कर्ष निकाल सकते हैं कि जिस किसी का रीडिंगस्किल्स स्कोर 38.3 से कम है और उम्र 6 से अधिक है, वह मूल वक्ता नहीं है।