प्रतिगमन एल्गोरिदम - अवलोकन

प्रतिगमन का परिचय

प्रतिगमन एक अन्य महत्वपूर्ण और व्यापक रूप से उपयोग किया जाने वाला सांख्यिकीय और मशीन लर्निंग टूल है। प्रतिगमन-आधारित कार्यों का मुख्य उद्देश्य दिए गए इनपुट डेटा के लिए आउटपुट लेबल या प्रतिक्रियाओं का अनुमान लगाना है जो संख्यात्मक मान जारी रखे हुए हैं। प्रशिक्षण चरण में मॉडल ने जो सीखा है, उसके आधार पर आउटपुट होगा। मूल रूप से, प्रतिगमन मॉडल इनपुट डेटा विशेषताओं (स्वतंत्र चर) और उनके संबंधित निरंतर संख्यात्मक आउटपुट मान (निर्भर या परिणाम चर) का उपयोग इनपुट और संबंधित आउटपुट के बीच विशिष्ट संबंध जानने के लिए करते हैं।

प्रतिगमन मॉडल के प्रकार

प्रतिगमन मॉडल दो प्रकार के होते हैं -

Simple regression model - यह सबसे बुनियादी प्रतिगमन मॉडल है जिसमें डेटा के एकल, अविभाज्य विशेषता से भविष्यवाणियां बनती हैं।

Multiple regression model - जैसा कि नाम से पता चलता है, इस प्रतिगमन मॉडल में डेटा की कई विशेषताओं से भविष्यवाणियां बनती हैं।

पायथन में एक रजिस्ट्रार का निर्माण

पायथन में रेजिस्टर मॉडल का निर्माण वैसे ही किया जा सकता है जैसे हमने क्लासिफायरियर का निर्माण किया था। Scikit-learn, मशीन लर्निंग के लिए एक पायथन लाइब्रेरी का उपयोग भी पायथन में एक रजिस्ट्रार के निर्माण के लिए किया जा सकता है।

निम्नलिखित उदाहरण में, हम बुनियादी प्रतिगमन मॉडल का निर्माण करेंगे जो डेटा के लिए एक पंक्ति फिट होगा अर्थात रैखिक प्रतिगामी। पायथन में एक रजिस्ट्रार के निर्माण के लिए आवश्यक कदम इस प्रकार हैं -

चरण 1: आवश्यक अजगर पैकेज का आयात करना

स्कोर-लर्न का उपयोग करके एक रजिस्ट्रार के निर्माण के लिए, हमें इसे अन्य आवश्यक पैकेजों के साथ आयात करना होगा। हम निम्नलिखित स्क्रिप्ट का उपयोग करके आयात कर सकते हैं -

import numpy as np
from sklearn import linear_model
import sklearn.metrics as sm
import matplotlib.pyplot as plt

चरण 2: डेटासेट आयात करना

आवश्यक पैकेज आयात करने के बाद, हमें प्रतिगमन भविष्यवाणी मॉडल बनाने के लिए एक डेटासेट की आवश्यकता होती है। हम इसे स्केलेरियन डेटासेट से आयात कर सकते हैं या अपनी आवश्यकता के अनुसार अन्य का उपयोग कर सकते हैं। हम अपने सहेजे गए इनपुट डेटा का उपयोग करने जा रहे हैं। हम इसे निम्नलिखित स्क्रिप्ट की सहायता से आयात कर सकते हैं -

input = r'C:\linear.txt'

अगला, हमें इस डेटा को लोड करने की आवश्यकता है। हम इसे लोड करने के लिए np.loadtxt फ़ंक्शन का उपयोग कर रहे हैं।

input_data = np.loadtxt(input, delimiter=',')
X, y = input_data[:, :-1], input_data[:, -1]

चरण 3: प्रशिक्षण और परीक्षण सेट में डेटा को व्यवस्थित करना

जैसा कि हमें अनदेखे डेटा पर अपने मॉडल का परीक्षण करने की आवश्यकता है, इसलिए हम अपने डेटासेट को दो भागों में विभाजित करेंगे: एक प्रशिक्षण सेट और एक परीक्षण सेट। निम्नलिखित आदेश यह प्रदर्शन करेंगे -

training_samples = int(0.6 * len(X))
testing_samples = len(X) - num_training

X_train, y_train = X[:training_samples], y[:training_samples]

X_test, y_test = X[training_samples:], y[training_samples:]

चरण 4: मॉडल मूल्यांकन और भविष्यवाणी

प्रशिक्षण और परीक्षण में डेटा को विभाजित करने के बाद हमें मॉडल बनाने की आवश्यकता है। हम इस प्रयोजन के लिए Scikit-LineaRegression () फ़ंक्शन का उपयोग करेंगे। निम्न आदेश एक रैखिक प्रतिगामी वस्तु बनाएगा।

reg_linear= linear_model.LinearRegression()

अगला, इस मॉडल को प्रशिक्षण के नमूनों के साथ निम्नानुसार प्रशिक्षित करें -

reg_linear.fit(X_train, y_train)

अब, अंत में हमें परीक्षण डेटा के साथ भविष्यवाणी करने की आवश्यकता है।

y_test_pred = reg_linear.predict(X_test)

चरण 5: प्लॉट और विज़ुअलाइज़ेशन

भविष्यवाणी के बाद, हम इसे निम्नलिखित स्क्रिप्ट की मदद से साजिश और कल्पना कर सकते हैं -

Example

plt.scatter(X_test, y_test, color='red')
plt.plot(X_test, y_test_pred, color='black', linewidth=2)
plt.xticks(())
plt.yticks(())
plt.show()

Output

उपरोक्त आउटपुट में, हम डेटा बिंदुओं के बीच प्रतिगमन लाइन देख सकते हैं।

चरण 6: प्रदर्शन संगणना

हम अपने प्रतिगमन मॉडल के प्रदर्शन की गणना विभिन्न प्रदर्शन मेट्रिक्स की सहायता से भी कर सकते हैं -

Example

print("Regressor model performance:")
print("Mean absolute error(MAE) =", round(sm.mean_absolute_error(y_test, y_test_pred), 2))
print("Mean squared error(MSE) =", round(sm.mean_squared_error(y_test, y_test_pred), 2))
print("Median absolute error =", round(sm.median_absolute_error(y_test, y_test_pred), 2))
print("Explain variance score =", round(sm.explained_variance_score(y_test, y_test_pred), 2))
print("R2 score =", round(sm.r2_score(y_test, y_test_pred), 2))

Output

Regressor model performance:
Mean absolute error(MAE) = 1.78
Mean squared error(MSE) = 3.89
Median absolute error = 2.01
Explain variance score = -0.09
R2 score = -0.09

एमएल प्रतिगमन एल्गोरिदम के प्रकार

सबसे उपयोगी और लोकप्रिय ML प्रतिगमन एल्गोरिथ्म रैखिक प्रतिगमन एल्गोरिथ्म है जिसे आगे दो प्रकारों में विभाजित किया गया है -

  • सरल रैखिक प्रतिगमन एल्गोरिथ्म

  • एकाधिक रैखिक प्रतिगमन एल्गोरिथ्म।

हम इसके बारे में चर्चा करेंगे और अगले अध्याय में इसे पायथन में लागू करेंगे।

अनुप्रयोग

एमएल प्रतिगमन एल्गोरिदम के आवेदन निम्नानुसार हैं -

Forecasting or Predictive analysis- प्रतिगमन के महत्वपूर्ण उपयोगों में से एक पूर्वानुमान या पूर्वानुमान विश्लेषण है। उदाहरण के लिए, हम सकल घरेलू उत्पाद, तेल की कीमतों या सरल शब्दों में मात्रात्मक डेटा का पूर्वानुमान लगा सकते हैं जो समय बीतने के साथ बदलता है।

Optimization- हम प्रतिगमन की मदद से व्यावसायिक प्रक्रियाओं का अनुकूलन कर सकते हैं। उदाहरण के लिए, एक स्टोर मैनेजर ग्राहकों के आने के समय को समझने के लिए एक सांख्यिकीय मॉडल बना सकता है।

Error correction- व्यवसाय में, सही निर्णय लेना उतना ही महत्वपूर्ण है जितना व्यवसाय प्रक्रिया का अनुकूलन। प्रतिगमन हमें पहले से लागू निर्णय को सही करने के साथ-साथ सही निर्णय लेने में मदद कर सकता है।

Economics- यह अर्थशास्त्र में सबसे अधिक उपयोग किया जाने वाला उपकरण है। हम आपूर्ति, मांग, खपत, इन्वेंट्री निवेश आदि की भविष्यवाणी करने के लिए प्रतिगमन का उपयोग कर सकते हैं।

Finance- एक वित्तीय कंपनी हमेशा जोखिम पोर्टफोलियो को कम करने में रुचि रखती है और ग्राहकों को प्रभावित करने वाले कारकों को जानना चाहती है। इन सभी का अनुमान प्रतिगमन मॉडल की मदद से लगाया जा सकता है।