आर - यादृच्छिक वन

यादृच्छिक वन दृष्टिकोण में, बड़ी संख्या में निर्णय वृक्ष बनाए जाते हैं। हर अवलोकन हर निर्णय पेड़ में खिलाया जाता है। प्रत्येक अवलोकन के लिए सबसे आम परिणाम अंतिम आउटपुट के रूप में उपयोग किया जाता है। एक नया अवलोकन सभी पेड़ों को खिलाया जाता है और प्रत्येक वर्गीकरण मॉडल के लिए बहुमत वोट लेता है।

एक त्रुटि अनुमान उन मामलों के लिए किया जाता है जो पेड़ का निर्माण करते समय उपयोग नहीं किए गए थे। उसे a कहते हैंOOB (Out-of-bag) त्रुटि अनुमान जो एक प्रतिशत के रूप में उल्लिखित है।

आर पैकेज "randomForest" यादृच्छिक जंगलों को बनाने के लिए उपयोग किया जाता है।

R पैकेज स्थापित करें

पैकेज स्थापित करने के लिए R कंसोल में नीचे दिए गए कमांड का उपयोग करें। यदि कोई हो, तो आपको निर्भर पैकेज भी स्थापित करने होंगे।

install.packages("randomForest)

पैकेज "randomForest" का कार्य है randomForest() जिसका उपयोग यादृच्छिक जंगलों को बनाने और उनका विश्लेषण करने के लिए किया जाता है।

वाक्य - विन्यास

R में यादृच्छिक वन बनाने के लिए मूल सिंटैक्स है -

randomForest(formula, data)

निम्नलिखित मापदंडों का वर्णन है -

  • formula भविष्यवक्ता और प्रतिक्रिया चर का वर्णन करने वाला एक सूत्र है।

  • data उपयोग किए गए डेटा सेट का नाम है।

इनपुट डेटा

हम निर्णय ट्री बनाने के लिए रीडिंगस्किल्स नामक आर-इन-बिल्ट डेटा सेट का उपयोग करेंगे। यह किसी के रीडिंगस्किल्स के स्कोर का वर्णन करता है यदि हम चर "उम्र", "जूते का आकार", "स्कोर" जानते हैं और क्या व्यक्ति मूल वक्ता है।

यहाँ नमूना डेटा है।

# Load the party package. It will automatically load other
# required packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम और चार्ट तैयार करता है -

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

उदाहरण

हम उपयोग करेंगे randomForest() निर्णय पेड़ बनाने के लिए कार्य करें और इसे ग्राफ़ देखें।

# Load the party package. It will automatically load other
# required packages.
library(party)
library(randomForest)

# Create the forest.
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score, 
           data = readingSkills)

# View the forest results.
print(output.forest) 

# Importance of each predictor.
print(importance(fit,type = 2))

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

Call:
 randomForest(formula = nativeSpeaker ~ age + shoeSize + score,     
                 data = readingSkills)
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 1%
Confusion matrix:
    no yes class.error
no  99   1        0.01
yes  1  99        0.01
         MeanDecreaseGini
age              13.95406
shoeSize         18.91006
score            56.73051

निष्कर्ष

ऊपर दिखाए गए यादृच्छिक वन से हम यह निष्कर्ष निकाल सकते हैं कि कोई व्यक्ति मूल वक्ता है या नहीं, यह निर्णय लेने वाले जूते और स्कोर महत्वपूर्ण कारक हैं। साथ ही मॉडल में केवल 1% त्रुटि है जिसका अर्थ है कि हम 99% सटीकता के साथ भविष्यवाणी कर सकते हैं।