एमएल मॉडल (Contd…) के प्रदर्शन में सुधार

एल्गोरिथ्म ट्यूनिंग के साथ प्रदर्शन में सुधार

जैसा कि हम जानते हैं कि एमएल मॉडल को इस तरह से मानकीकृत किया जाता है ताकि किसी विशिष्ट समस्या के लिए उनके व्यवहार को समायोजित किया जा सके। एल्गोरिथम ट्यूनिंग का अर्थ है कि इन मापदंडों का सबसे अच्छा संयोजन ढूंढना ताकि एमएल मॉडल के प्रदर्शन में सुधार हो सके। इस प्रक्रिया को कभी-कभी हाइपरपैरिमेट ऑप्टिमाइज़ेशन कहा जाता है और एल्गोरिथम के मापदंडों को ही हाइपरपरमेटर्स कहा जाता है और एमएल एल्गोरिथम द्वारा पाए जाने वाले गुणांक को पैरामीटर कहा जाता है।

यहां, हम पायथन स्किटिट-लर्न द्वारा प्रदान किए गए एल्गोरिथम पैरामीटर ट्यूनिंग के कुछ तरीकों के बारे में चर्चा करने जा रहे हैं।

ग्रिड खोज पैरामीटर ट्यूनिंग

यह एक पैरामीटर ट्यूनिंग दृष्टिकोण है। इस विधि के काम करने का मुख्य बिंदु यह है कि यह ग्रिड में निर्दिष्ट एल्गोरिथम पैरामीटर के हर संभव संयोजन के लिए मॉडल का निर्माण और मूल्यांकन करता है। इसलिए, हम कह सकते हैं कि इस एल्गोरिथ्म में खोज प्रकृति है।

Example

निम्नलिखित पायथन रेसिपी में, हम पिमा इंडियन्स डायबिटीज डेटासेट पर रिज रिग्रेशन अल्गोरिदम के लिए विभिन्न अल्फा वैल्यू के मूल्यांकन के लिए स्केलेर की ग्रिडसर्चकवीवी क्लास का उपयोग करके ग्रिड सर्च करने जा रहे हैं।

सबसे पहले, आवश्यक पैकेजों को निम्नानुसार आयात करें -

import numpy
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

अब, हमें पहले उदाहरणों के अनुसार पीमा डायबिटीज डेटासेट लोड करने की आवश्यकता है -

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]

अगला, विभिन्न अल्फा मानों का मूल्यांकन इस प्रकार है -

alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid = dict(alpha=alphas)

अब, हमें अपने मॉडल पर ग्रिड खोज लागू करने की आवश्यकता है -

model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)

निम्नलिखित स्क्रिप्ट लाइन के साथ परिणाम प्रिंट करें -

print(grid.best_score_)
print(grid.best_estimator_.alpha)

Output

0.2796175593129722
1.0

उपरोक्त आउटपुट हमें इष्टतम स्कोर और ग्रिड में मापदंडों का सेट देता है जिसने उस स्कोर को प्राप्त किया। इस मामले में अल्फा मान 1.0 है।

यादृच्छिक खोज पैरामीटर ट्यूनिंग

यह एक पैरामीटर ट्यूनिंग दृष्टिकोण है। इस विधि के काम करने का मुख्य बिंदु यह है कि यह एक निश्चित संख्या में पुनरावृत्तियों के लिए एक यादृच्छिक वितरण से एल्गोरिथ्म के मापदंडों का नमूना लेता है।

Example

निम्नलिखित पायथन रेसिपी में, हम पिमा इंडियन्स डायबिटीज डेटासेट पर रिज रिग्रेशन अल्गोरिथम के लिए 0 और 1 के बीच अलग-अलग अल्फा वैल्यू के मूल्यांकन के लिए स्केलेर के रैंडमाइंडसर्च सीवीसी क्लास का उपयोग करके यादृच्छिक खोज करने जा रहे हैं।

सबसे पहले, आवश्यक पैकेजों को निम्नानुसार आयात करें -

import numpy
from pandas import read_csv
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV

अब, हमें पहले उदाहरणों के अनुसार पीमा डायबिटीज डेटासेट लोड करने की आवश्यकता है -

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]

अगला, रिज प्रतिगमन एल्गोरिथ्म पर विभिन्न अल्फा वैल्यू का मूल्यांकन इस प्रकार है -

param_grid = {'alpha': uniform()}
model = Ridge()
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=50,
random_state=7)
random_search.fit(X, Y)

निम्नलिखित स्क्रिप्ट लाइन के साथ परिणाम प्रिंट करें -

print(random_search.best_score_)
print(random_search.best_estimator_.alpha)

Output

0.27961712703051084
0.9779895119966027

उपरोक्त आउटपुट हमें ग्रिड खोज के समान ही इष्टतम स्कोर देता है।