मशीन लर्निंग - स्वचालित वर्कफ़्लोज़

परिचय

सफलतापूर्वक परिणामों का निष्पादन और उत्पादन करने के लिए, मशीन लर्निंग मॉडल को कुछ मानक वर्कफ़्लो को स्वचालित करना होगा। इन मानक वर्कफ़्लोज़ को स्वचालित करने की प्रक्रिया को स्किकिट-लर्न पाइपलाइनों की मदद से किया जा सकता है। एक डेटा वैज्ञानिक के दृष्टिकोण से, पाइपलाइन एक सामान्यीकृत, लेकिन बहुत महत्वपूर्ण अवधारणा है। यह मूल रूप से अपने कच्चे प्रारूप से कुछ उपयोगी जानकारी के लिए डेटा प्रवाह की अनुमति देता है। निम्नलिखित आरेख की सहायता से पाइपलाइनों के कार्य को समझा जा सकता है -

एमएल पाइपलाइनों के ब्लॉक निम्नानुसार हैं -

Data ingestion- जैसा कि नाम से पता चलता है, यह एमएल प्रोजेक्ट में उपयोग के लिए डेटा आयात करने की प्रक्रिया है। डेटा को वास्तविक समय या बैचों में एकल या एकाधिक सिस्टम से निकाला जा सकता है। यह सबसे चुनौतीपूर्ण चरणों में से एक है क्योंकि डेटा की गुणवत्ता पूरे एमएल मॉडल को प्रभावित कर सकती है।

Data Preparation- डेटा आयात करने के बाद, हमें अपने एमएल मॉडल के लिए उपयोग किए जाने वाले डेटा को तैयार करना होगा। डेटा प्रीप्रोसेसिंग डेटा तैयार करने की सबसे महत्वपूर्ण तकनीक में से एक है।

ML Model Training- अगला कदम हमारे एमएल मॉडल को प्रशिक्षित करना है। हमारे पास विभिन्न एमएल एल्गोरिदम जैसे पर्यवेक्षित, असुरक्षित, डेटा से सुविधाओं को निकालने और पूर्वानुमान बनाने के लिए सुदृढीकरण है।

Model Evaluation- अगला, हमें एमएल मॉडल का मूल्यांकन करने की आवश्यकता है। ऑटोएमएल पाइपलाइन के मामले में, एमएल मॉडल का मूल्यांकन विभिन्न सांख्यिकीय विधियों और व्यावसायिक नियमों की मदद से किया जा सकता है।

ML Model retraining- ऑटोएमएल पाइपलाइन के मामले में, यह आवश्यक नहीं है कि पहला मॉडल सबसे अच्छा हो। पहले मॉडल को बेसलाइन मॉडल के रूप में माना जाता है और हम इसे मॉडल की सटीकता बढ़ाने के लिए बार-बार प्रशिक्षित कर सकते हैं।

Deployment- अंत में, हमें मॉडल को तैनात करने की आवश्यकता है। इस कदम में उनके उपयोग के लिए व्यावसायिक कार्यों के लिए मॉडल को लागू करना और माइग्रेट करना शामिल है।

एमएल पाइपलाइनों को चुनौती देना

एमएल पाइपलाइन बनाने के लिए, डेटा वैज्ञानिकों को कई चुनौतियों का सामना करना पड़ता है। ये चुनौतियाँ निम्नलिखित तीन श्रेणियों में आती हैं -

डेटा की गुणवत्ता

किसी भी ML मॉडल की सफलता डेटा की गुणवत्ता पर बहुत अधिक निर्भर करती है। यदि हम एमएल मॉडल को जो डेटा प्रदान कर रहे हैं वह सटीक, विश्वसनीय और मजबूत नहीं है, तो हम गलत या भ्रामक आउटपुट के साथ समाप्त होने जा रहे हैं।

डेटा विश्वसनीयता

एमएल पाइपलाइनों से जुड़ी एक अन्य चुनौती डेटा की विश्वसनीयता है जो हम एमएल मॉडल को प्रदान कर रहे हैं। जैसा कि हम जानते हैं कि विभिन्न स्रोत हो सकते हैं जिनसे डेटा वैज्ञानिक डेटा प्राप्त कर सकते हैं लेकिन सर्वोत्तम परिणाम प्राप्त करने के लिए, यह आश्वस्त होना चाहिए कि डेटा स्रोत विश्वसनीय और विश्वसनीय हैं।

डेटा एक्सेसिबिलिटी

एमएल पाइपलाइनों से सर्वोत्तम परिणाम प्राप्त करने के लिए, डेटा को स्वयं सुलभ होना चाहिए जिसके लिए डेटा के समेकन, सफाई और अवधि की आवश्यकता होती है। डेटा एक्सेसिबिलिटी प्रॉपर्टी के परिणामस्वरूप, मेटाडेटा को नए टैग के साथ अपडेट किया जाएगा।

मॉडलिंग एमएल पाइपलाइन और डेटा तैयारी

डेटा डेटा रिसाव, डेटासेट से टेस्टिंग डेटासेट में हो रहा है, एमएल साइंटिस्ट के लिए डेटा तैयार करते समय डेटा वैज्ञानिक से निपटने के लिए एक महत्वपूर्ण मुद्दा है। आमतौर पर, डेटा तैयार करने के समय, डेटा वैज्ञानिक सीखने से पहले संपूर्ण डेटासेट पर मानकीकरण या सामान्यीकरण जैसी तकनीकों का उपयोग करते हैं। लेकिन ये तकनीकें डेटा के रिसाव से हमारी मदद नहीं कर सकती हैं क्योंकि टेस्टिंग डेटासेट में टेस्टिंग डेटासेट के डेटा स्केल से प्रभावित होता है।

एमएल पाइपलाइनों का उपयोग करके, हम इस डेटा रिसाव को रोक सकते हैं क्योंकि पाइपलाइन सुनिश्चित करती हैं कि मानकीकरण जैसी डेटा तैयारी हमारी क्रॉस-वैलिडेशन प्रक्रिया के प्रत्येक तह के लिए विवश है।

उदाहरण

निम्नलिखित पायथन में एक उदाहरण है जो डेटा तैयारी और मॉडल मूल्यांकन वर्कफ़्लो प्रदर्शित करता है। इस उद्देश्य के लिए, हम स्केलेर से पीमा इंडियन डायबिटीज डेटासेट का उपयोग कर रहे हैं। सबसे पहले, हम पाइपलाइन का निर्माण करेंगे जो डेटा को मानकीकृत करता है। फिर एक रैखिक भेदभावपूर्ण विश्लेषण मॉडल बनाया जाएगा और अंत में 10-गुना क्रॉस सत्यापन का उपयोग करके पाइपलाइन का मूल्यांकन किया जाएगा।

सबसे पहले, आवश्यक पैकेजों को निम्नानुसार आयात करें -

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

अब, हमें पहले उदाहरणों के अनुसार पीमा डायबिटीज डेटासेट लोड करने की आवश्यकता है -

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values

अगला, हम निम्नलिखित कोड की मदद से एक पाइपलाइन बनाएंगे -

estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
model = Pipeline(estimators)

अंत में, हम इस पाइपलाइन का मूल्यांकन करने जा रहे हैं और इसकी सटीकता का उत्पादन निम्नानुसार कर रहे हैं -

kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

उत्पादन

0.7790148448043184

उपरोक्त आउटपुट डेटासेट पर सेटअप की सटीकता का सारांश है।

मॉडलिंग एमएल पाइपलाइन और फ़ीचर एक्सट्रैक्शन

एमएल मॉडल की सुविधा निष्कर्षण कदम पर डेटा रिसाव भी हो सकता है। यही कारण है कि हमारे प्रशिक्षण डेटासेट में डेटा रिसाव को रोकने के लिए सुविधा निष्कर्षण प्रक्रियाएं भी प्रतिबंधित होनी चाहिए। जैसा कि डेटा तैयार करने के मामले में, एमएल पाइपलाइनों का उपयोग करके, हम इस डेटा रिसाव को भी रोक सकते हैं। FeatureUnion, एमएल पाइपलाइनों द्वारा प्रदान किए गए एक उपकरण का उपयोग इस उद्देश्य के लिए किया जा सकता है।

उदाहरण

निम्नलिखित पायथन में एक उदाहरण है जो फीचर निष्कर्षण और मॉडल मूल्यांकन वर्कफ़्लो को प्रदर्शित करता है। इस उद्देश्य के लिए, हम स्केलेर से पीमा इंडियन डायबिटीज डेटासेट का उपयोग कर रहे हैं।

सबसे पहले, पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) के साथ 3 फीचर्स निकाले जाएंगे। फिर, सांख्यिकीय विश्लेषण के साथ 6 विशेषताएं निकाली जाएंगी। फीचर निष्कर्षण के बाद, कई फीचर चयन और निष्कर्षण प्रक्रियाओं के परिणाम को जोड़कर उपयोग किया जाएगा

FeatureUnion उपकरण। अंत में, एक लॉजिस्टिक रिग्रेशन मॉडल बनाया जाएगा, और 10-गुना क्रॉस सत्यापन का उपयोग करके पाइपलाइन का मूल्यांकन किया जाएगा।

सबसे पहले, आवश्यक पैकेजों को निम्नानुसार आयात करें -

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

अब, हमें पहले उदाहरणों के अनुसार पीमा डायबिटीज डेटासेट लोड करने की आवश्यकता है -

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values

अगला, फीचर यूनियन इस प्रकार बनाया जाएगा -

features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
feature_union = FeatureUnion(features)

अगले, स्क्रिप्ट लाइनों की मदद से पाइप लाइन बनाई जाएगी -

estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
model = Pipeline(estimators)

अंत में, हम इस पाइपलाइन का मूल्यांकन करने जा रहे हैं और इसकी सटीकता का उत्पादन निम्नानुसार कर रहे हैं -

kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

उत्पादन

0.7789811066126855

उपरोक्त आउटपुट डेटासेट पर सेटअप की सटीकता का सारांश है।