वर्गीकरण एल्गोरिदम - यादृच्छिक वन
परिचय
रैंडम फॉरेस्ट एक सुपरवाइज्ड लर्निंग अल्गोरिथम है जो कि वर्गीकरण के साथ-साथ प्रतिगमन दोनों के लिए उपयोग किया जाता है। लेकिन फिर भी, यह मुख्य रूप से वर्गीकरण की समस्याओं के लिए उपयोग किया जाता है। जैसा कि हम जानते हैं कि एक जंगल पेड़ों से बना होता है और ज्यादा पेड़ों का मतलब होता है ज्यादा मजबूत जंगल। इसी तरह, यादृच्छिक वन एल्गोरिथ्म डेटा नमूनों पर निर्णय पेड़ बनाता है और फिर उनमें से प्रत्येक से भविष्यवाणी प्राप्त करता है और अंत में मतदान के माध्यम से सबसे अच्छा समाधान चुनता है। यह एक पहनावा विधि है जो एकल निर्णय पेड़ से बेहतर है क्योंकि यह परिणाम के औसत से अधिक-फिटिंग को कम करता है।
रैंडम फॉरेस्ट एल्गोरिथम का कार्य करना
हम निम्नलिखित चरणों की सहायता से रैंडम फ़ॉरेस्ट एल्गोरिथ्म के कार्य को समझ सकते हैं -
Step 1 - सबसे पहले, दिए गए डेटासेट से यादृच्छिक नमूनों के चयन के साथ शुरू करें।
Step 2- अगला, यह एल्गोरिथ्म प्रत्येक नमूने के लिए एक निर्णय वृक्ष का निर्माण करेगा। फिर उसे हर निर्णय वृक्ष से भविष्यवाणी का परिणाम मिलेगा।
Step 3 - इस चरण में, प्रत्येक अनुमानित परिणाम के लिए मतदान किया जाएगा।
Step 4 - अंत में, अंतिम भविष्यवाणी परिणाम के रूप में सबसे अधिक मतदान भविष्यवाणी परिणाम का चयन करें।
निम्नलिखित चित्र इसके काम का वर्णन करेगा -
पायथन में कार्यान्वयन
सबसे पहले, आवश्यक पायथन पैकेजों को आयात करना शुरू करें -
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
इसके बाद आईरिस डेटासेट को इसके वेबलिंक से डाउनलोड करें -
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
आगे, हमें कॉलम नामों को डेटासेट में निर्दिष्ट करना होगा -
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
अब, हमें डेटासेट को पंडों के डेटासेट को पढ़ने की जरूरत है -
dataset = pd.read_csv(path, names=headernames)
dataset.head()
बाह्यदल-लंबाई | बाह्यदल-चौड़ाई | पत्ती-लंबाई | पत्ती-चौड़ाई | कक्षा | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | आइरिस-setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | आइरिस-setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | आइरिस-setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | आइरिस-setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | आइरिस-setosa |
निम्नलिखित स्क्रिप्ट लाइनों की मदद से डेटा प्रीप्रोसेसिंग किया जाएगा -
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
अगला, हम डेटा को ट्रेन और परीक्षण विभाजन में विभाजित करेंगे। निम्नलिखित कोड डेटासेट को 70% प्रशिक्षण डेटा और 30% परीक्षण डेटा में विभाजित करेगा -
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
इसके बाद, इस प्रकार के रूप में स्केलेर के रैंडमफोरेस्ट क्लैसिफायर वर्ग की मदद से मॉडल को प्रशिक्षित करें -
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators=50)
classifier.fit(X_train, y_train)
अंत में, हमें भविष्यवाणी करने की आवश्यकता है। यह निम्नलिखित स्क्रिप्ट की मदद से किया जा सकता है -
y_pred = classifier.predict(X_test)
अगला, परिणाम निम्नानुसार मुद्रित करें -
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
उत्पादन
Confusion Matrix:
[
[14 0 0]
[ 0 18 1]
[ 0 0 12]
]
Classification Report:
precision recall f1-score support
Iris-setosa 1.00 1.00 1.00 14
Iris-versicolor 1.00 0.95 0.97 19
Iris-virginica 0.92 1.00 0.96 12
micro avg 0.98 0.98 0.98 45
macro avg 0.97 0.98 0.98 45
weighted avg 0.98 0.98 0.98 45
Accuracy: 0.9777777777777777
यादृच्छिक वन के पेशेवरों और विपक्ष
पेशेवरों
रैंडम फ़ॉरेस्ट एल्गोरिथ्म के फायदे निम्नलिखित हैं -
यह विभिन्न निर्णय पेड़ों के परिणामों के औसत या संयोजन के द्वारा ओवरफिटिंग की समस्या को खत्म करता है।
रैंडम फ़ॉरेस्ट एकल निर्णय ट्री की तुलना में डेटा आइटम की एक बड़ी श्रृंखला के लिए अच्छी तरह से काम करते हैं।
रैंडम वन में कम विचरण होता है फिर एकल निर्णय वृक्ष।
यादृच्छिक वन बहुत लचीले होते हैं और इनमें बहुत अधिक सटीकता होती है।
यादृच्छिक वन एल्गोरिथ्म में डेटा की स्केलिंग की आवश्यकता नहीं होती है। यह स्केलिंग के बिना डेटा प्रदान करने के बाद भी अच्छी सटीकता बनाए रखता है।
यादृच्छिक वन एल्गोरिथ्म में डेटा की स्केलिंग की आवश्यकता नहीं होती है। यह स्केलिंग के बिना डेटा प्रदान करने के बाद भी अच्छी सटीकता बनाए रखता है।
विपक्ष
रैंडम फ़ॉरेस्ट एल्गोरिथ्म के नुकसान निम्नलिखित हैं -
जटिलता रैंडम वन एल्गोरिदम का मुख्य नुकसान है।
निर्णय वृक्षों की तुलना में यादृच्छिक वनों का निर्माण बहुत कठिन और समय लेने वाला होता है।
रैंडम फ़ॉरेस्ट एल्गोरिथ्म को लागू करने के लिए अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है।
जब हम निर्णय पेड़ों का एक बड़ा संग्रह होता है तो यह कम सहज होता है।
अन्य जंगलों की तुलना में यादृच्छिक जंगलों का उपयोग करने की भविष्यवाणी प्रक्रिया बहुत समय लेने वाली है।