H2O - त्वरित गाइड
क्या आपको कभी एक विशाल डेटाबेस पर मशीन लर्निंग मॉडल विकसित करने के लिए कहा गया है? आमतौर पर, ग्राहक आपको डेटाबेस प्रदान करेगा और आपको कुछ भविष्यवाणियां करने के लिए कहेगा जैसे कि संभावित खरीदार कौन होगा; अगर कपटपूर्ण मामलों आदि का जल्द पता चल सकता है, तो इन सवालों का जवाब देने के लिए, आपका काम एक मशीन लर्निंग एल्गोरिदम विकसित करना होगा जो ग्राहक की क्वेरी का जवाब प्रदान करेगा। स्क्रैच से मशीन लर्निंग एल्गोरिदम विकसित करना कोई आसान काम नहीं है और जब बाजार में कई रेडी-टू-यूज़ मशीन लर्निंग लाइब्रेरी उपलब्ध हों तो आपको ऐसा क्यों करना चाहिए।
इन दिनों, आप इन पुस्तकालयों का उपयोग करेंगे, इन पुस्तकालयों से एक अच्छी तरह से परीक्षण किया एल्गोरिथ्म लागू करें और इसके प्रदर्शन को देखें। यदि प्रदर्शन स्वीकार्य सीमा के भीतर नहीं था, तो आप वर्तमान एल्गोरिथ्म को ठीक करने की कोशिश करेंगे या पूरी तरह से अलग कोशिश करेंगे।
इसी तरह, आप एक ही डेटासेट पर कई एल्गोरिदम आज़मा सकते हैं और फिर सबसे अच्छा वह चुन सकते हैं जो ग्राहक की आवश्यकताओं को पूरा करता है। यह वह जगह है जहां H2O आपके बचाव में आती है। यह एक खुला स्रोत मशीन लर्निंग फ्रेमवर्क है जिसमें कई व्यापक रूप से स्वीकृत एमएल एल्गोरिदम के पूर्ण-परीक्षण किए गए कार्यान्वयन हैं। आपको बस इसके विशाल भंडार से एल्गोरिथ्म को चुनना होगा और इसे अपने डेटासेट में लागू करना होगा। इसमें सबसे अधिक उपयोग किया जाने वाला सांख्यिकीय और एमएल एल्गोरिदम शामिल हैं।
यहां कुछ का उल्लेख करने के लिए इसमें ग्रेडिएंट बूस्टेड मशीन (जीबीएम), सामान्यीकृत रैखिक मॉडल (जीएलएम), गहन शिक्षण और बहुत कुछ शामिल हैं। इतना ही नहीं यह ऑटोएमएल कार्यक्षमता का भी समर्थन करता है जो आपके डेटासेट पर विभिन्न एल्गोरिदम के प्रदर्शन को रैंक करेगा, इस प्रकार सबसे अच्छा प्रदर्शन करने वाले मॉडल को खोजने के आपके प्रयासों को कम करेगा। H2O का उपयोग दुनिया भर में 18000 से अधिक संगठनों द्वारा किया जाता है और आपके विकास में आसानी के लिए आर और पायथन के साथ अच्छी तरह से इंटरफेस करता है। यह एक इन-मेमोरी प्लेटफॉर्म है जो शानदार प्रदर्शन प्रदान करता है।
इस ट्यूटोरियल में, आप पहले पायथन और आर दोनों विकल्पों के साथ अपनी मशीन पर H2O स्थापित करना सीखेंगे। हम कमांड लाइन में इसका उपयोग करने के तरीके को समझेंगे ताकि आप इसकी कार्य-रेखा को समझ सकें। यदि आप पायथन प्रेमी हैं, तो आप H2O एप्लिकेशन विकसित करने के लिए Jupyter या अपनी पसंद के किसी अन्य IDE का उपयोग कर सकते हैं। यदि आप आर पसंद करते हैं, तो आप विकास के लिए RStudio का उपयोग कर सकते हैं।
इस ट्यूटोरियल में, हम H2O के साथ काम करने के बारे में समझने के लिए एक उदाहरण पर विचार करेंगे। हम यह भी सीखेंगे कि अपने प्रोग्राम कोड में एल्गोरिदम को कैसे बदला जाए और इसके प्रदर्शन की तुलना पहले वाले से की जाए। H2O आपके डेटासेट पर विभिन्न एल्गोरिदम का परीक्षण करने के लिए एक वेब-आधारित टूल भी प्रदान करता है। इसे फ्लो कहा जाता है।
ट्यूटोरियल आपको फ्लो के उपयोग से परिचित कराएगा। इसके साथ, हम ऑटोएमएल के उपयोग पर चर्चा करेंगे जो आपके डेटासेट पर सबसे अच्छा प्रदर्शन करने वाले एल्गोरिथ्म की पहचान करेगा। क्या आप H2O सीखने के लिए उत्साहित नहीं हैं? पढ़ते रहिये!
H2O को कॉन्फ़िगर किया जा सकता है और नीचे सूचीबद्ध पांच विभिन्न विकल्पों के साथ उपयोग किया जा सकता है -
अजगर में स्थापित करें
आर में स्थापित करें
वेब-आधारित फ्लो जीयूआई
Hadoop
एनाकोंडा क्लाउड
हमारे बाद के अनुभागों में, आप उपलब्ध विकल्पों के आधार पर H2O की स्थापना के लिए निर्देश देखेंगे। आप विकल्पों में से एक का उपयोग करने की संभावना है।
अजगर में स्थापित करें
पायथन के साथ एच 2 ओ को चलाने के लिए, स्थापना के लिए कई निर्भरताओं की आवश्यकता होती है। तो आइए हम एच 2 ओ को चलाने के लिए निर्भरता के न्यूनतम सेट को स्थापित करना शुरू करें।
निर्भरता स्थापित करना
एक निर्भरता स्थापित करने के लिए, निम्नलिखित पाइप कमांड को निष्पादित करें -
$ pip install requests
अपनी कंसोल विंडो खोलें और अनुरोध पैकेज को स्थापित करने के लिए उपरोक्त कमांड टाइप करें। निम्नलिखित स्क्रीनशॉट हमारे मैक मशीन पर उपरोक्त कमांड के निष्पादन को दर्शाता है -
अनुरोधों को स्थापित करने के बाद, आपको नीचे दिखाए गए अनुसार तीन और पैकेज स्थापित करने की आवश्यकता है -
$ pip install tabulate
$ pip install "colorama >= 0.3.8"
$ pip install future
निर्भरता की सबसे अद्यतन सूची H2O GitHub पृष्ठ पर उपलब्ध है। इस लेखन के समय, निम्नलिखित निर्भरताएं पृष्ठ पर सूचीबद्ध हैं।
python 2. H2O — Installation
pip >= 9.0.1
setuptools
colorama >= 0.3.7
future >= 0.15.2
पुराने संस्करणों को हटाना
उपरोक्त निर्भरताएं स्थापित करने के बाद, आपको किसी भी मौजूदा एच 2 ओ स्थापना को हटाने की आवश्यकता है। ऐसा करने के लिए, निम्नलिखित कमांड चलाएँ -
$ pip uninstall h2o
नवीनतम संस्करण को स्थापित करना
अब, हम निम्नलिखित कमांड का उपयोग करके H2O का नवीनतम संस्करण स्थापित करते हैं -
$ pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o
सफल स्थापना के बाद, आपको स्क्रीन पर निम्न संदेश डिस्प्ले देखना चाहिए -
Installing collected packages: h2o
Successfully installed h2o-3.26.0.1
स्थापना का परीक्षण
इंस्टॉलेशन का परीक्षण करने के लिए, हम एच 2 ओ इंस्टॉलेशन में प्रदान किए गए नमूना अनुप्रयोगों में से एक को चलाएंगे। पहले निम्नलिखित कमांड टाइप करके पायथन प्रॉम्प्ट शुरू करें -
$ Python3
एक बार पायथन इंटरप्रिटर शुरू होने के बाद, पायथन कमांड प्रॉम्प्ट पर निम्नलिखित पायथन स्टेटमेंट टाइप करें -
>>>import h2o
उपरोक्त कमांड आपके प्रोग्राम में H2O पैकेज को आयात करता है। अगला, निम्न कमांड का उपयोग करके H2O सिस्टम को इनिशियलाइज़ करें -
>>>h2o.init()
आपकी स्क्रीन क्लस्टर जानकारी दिखाएगी और इस स्तर पर निम्नलिखित देखना चाहिए -
अब, आप नमूना कोड चलाने के लिए तैयार हैं। पायथन प्रांप्ट पर निम्न कमांड टाइप करें और इसे निष्पादित करें।
>>>h2o.demo("glm")
डेमो में पायथन नोटबुक के साथ कमांड की एक श्रृंखला होती है। प्रत्येक कमांड को निष्पादित करने के बाद, इसका आउटपुट स्क्रीन पर तुरंत दिखाया जाता है और आपको अगले चरण को जारी रखने के लिए कुंजी को हिट करने के लिए कहा जाएगा। नोटबुक में अंतिम विवरण निष्पादित करने पर आंशिक स्क्रीनशॉट यहाँ दिखाया गया है -
इस स्तर पर आपका पायथन इंस्टॉलेशन पूरा हो गया है और आप अपने स्वयं के प्रयोग के लिए तैयार हैं।
आर में स्थापित करें
आर विकास के लिए एच 2 ओ स्थापित करना पायथन के लिए इसे स्थापित करने के समान है, सिवाय इसके कि आप स्थापना के लिए आर प्रॉम्प्ट का उपयोग करेंगे।
आर कंसोल को शुरू करना
अपनी मशीन पर R एप्लिकेशन आइकन पर क्लिक करके आर कंसोल शुरू करें। कंसोल स्क्रीन निम्न स्क्रीनशॉट में दिखाया गया है -
आपका H2O इंस्टॉलेशन उपरोक्त R प्रॉम्प्ट पर किया जाएगा। यदि आप RStudio का उपयोग करना पसंद करते हैं, तो R कंसोल सबविंडो में कमांड टाइप करें।
पुराने संस्करणों को हटाना
आर प्रॉम्प्ट पर निम्नलिखित कमांड का उपयोग करके पुराने संस्करणों को हटाने के लिए -
> if ("package:h2o" %in% search()) { detach("package:h2o", unload=TRUE) }
> if ("h2o" %in% rownames(installed.packages())) { remove.packages("h2o") }
निर्भरताएँ डाउनलोड करना
निम्नलिखित कोड का उपयोग करके H2O के लिए निर्भरताएं डाउनलोड करें -
> pkgs <- c("RCurl","jsonlite")
for (pkg in pkgs) {
if (! (pkg %in% rownames(installed.packages()))) { install.packages(pkg) }
}
H2O को स्थापित करना
R प्रॉम्प्ट पर निम्न कमांड टाइप करके H2O स्थापित करें -
> install.packages("h2o", type = "source", repos = (c("http://h2o-release.s3.amazonaws.com/h2o/latest_stable_R")))
निम्न स्क्रीनशॉट अपेक्षित आउटपुट दिखाता है -
आर में एच 2 ओ स्थापित करने का एक और तरीका है।
सीआरएएन से आर में स्थापित करें
सीआरएएन से आर स्थापित करने के लिए, आर प्रॉम्पट पर निम्नलिखित कमांड का उपयोग करें -
> install.packages("h2o")
आपको दर्पण का चयन करने के लिए कहा जाएगा -
--- Please select a CRAN mirror for use in this session ---
दर्पण साइटों की सूची प्रदर्शित करने वाला एक संवाद बॉक्स आपकी स्क्रीन पर दिखाया गया है। निकटतम स्थान या अपनी पसंद का दर्पण चुनें।
परीक्षण स्थापना
R प्रॉम्प्ट पर, निम्न कोड टाइप करें और चलाएं -
> library(h2o)
> localH2O = h2o.init()
> demo(h2o.kmeans)
उत्पन्न आउटपुट निम्न स्क्रीनशॉट में दिखाया जाएगा -
R में आपका H2O इंस्टॉलेशन अब पूरा हो गया है।
वेब जीयूआई फ्लो स्थापित करना
GUI फ्लो को स्थापित करने के लिए H20 साइट से इंस्टॉलेशन फ़ाइल डाउनलोड करें। अपने पसंदीदा फ़ोल्डर में डाउनलोड की गई फ़ाइल को अनज़िप करें। स्थापना में h2o.jar फ़ाइल की उपस्थिति पर ध्यान दें। निम्न कमांड का उपयोग करके इस फाइल को कमांड विंडो में चलाएं -
$ java -jar h2o.jar
थोड़ी देर के बाद, आपकी कंसोल विंडो में निम्नलिखित दिखाई देगा।
07-24 16:06:37.304 192.168.1.18:54321 3294 main INFO: H2O started in 7725ms
07-24 16:06:37.304 192.168.1.18:54321 3294 main INFO:
07-24 16:06:37.305 192.168.1.18:54321 3294 main INFO: Open H2O Flow in your web browser: http://192.168.1.18:54321
07-24 16:06:37.305 192.168.1.18:54321 3294 main INFO:
फ़्लो शुरू करने के लिए, दिए गए URL को खोलें http://localhost:54321आपके ब्राउज़र में। निम्न स्क्रीन दिखाई देगी -
इस स्तर पर, आपका फ्लो इंस्टॉलेशन पूरा हो गया है।
Hadoop / Anaconda Cloud पर इंस्टॉल करें
जब तक आप एक अनुभवी डेवलपर नहीं होते, आप बिग डेटा पर H2O का उपयोग करने के बारे में नहीं सोचते। यहां यह कहना पर्याप्त है कि एच 2 ओ मॉडल कई टेराबाइट्स के विशाल डेटाबेस पर कुशलतापूर्वक चलते हैं। यदि आपका डेटा आपके Hadoop इंस्टॉलेशन या क्लाउड में है, तो अपने संबंधित डेटाबेस के लिए इसे स्थापित करने के लिए H2O साइट पर दिए गए चरणों का पालन करें।
अब जब आपने अपनी मशीन पर H2O को सफलतापूर्वक स्थापित और परीक्षण कर लिया है, तो आप वास्तविक विकास के लिए तैयार हैं। सबसे पहले, हम एक कमांड प्रॉम्प्ट से विकास देखेंगे। अपने बाद के पाठों में, हम सीखेंगे कि एच 2 ओ फ्लो में मॉडल परीक्षण कैसे करें।
कमांड प्रॉम्प्ट में विकास करना
आइए अब हम एच 2 ओ का उपयोग करते हुए प्रसिद्ध आइरिस डाटासेट के पौधों को वर्गीकृत करने पर विचार करें जो मशीन लर्निंग अनुप्रयोगों को विकसित करने के लिए स्वतंत्र रूप से उपलब्ध हैं।
अपनी शेल विंडो में निम्न कमांड टाइप करके अजगर इंटरप्रेटर शुरू करें -
$ Python3
इससे पायथन इंटरप्रेटर शुरू होता है। निम्न कमांड का उपयोग करके h2o प्लेटफॉर्म आयात करें -
>>> import h2o
हम वर्गीकरण के लिए रैंडम फॉरेस्ट एल्गोरिथ्म का उपयोग करेंगे। यह H2ORandomForestEstimator पैकेज में प्रदान किया गया है। हम इस पैकेज को आयात विवरण का उपयोग करके आयात करते हैं -
>>> from h2o.estimators import H2ORandomForestEstimator
हम इसकी init विधि को कॉल करके H2o वातावरण को आरंभीकृत करते हैं।
>>> h2o.init()
सफल आरंभीकरण पर, आपको क्लस्टर जानकारी के साथ कंसोल पर निम्न संदेश देखना चाहिए।
Checking whether there is an H2O instance running at http://localhost:54321 . connected.
अब, हम H2O में import_file पद्धति का उपयोग करके आईरिस डेटा आयात करेंगे।
>>> data = h2o.import_file('iris.csv')
निम्न स्क्रीनशॉट में दिखाए अनुसार प्रगति प्रदर्शित होगी -
फ़ाइल को मेमोरी में लोड होने के बाद, आप लोड की गई तालिका की पहली 10 पंक्तियों को प्रदर्शित करके इसे सत्यापित कर सकते हैं। आप का उपयोग करेंhead ऐसा करने की विधि -
>>> data.head()
आपको निम्न आउटपुट सारणीबद्ध प्रारूप में दिखाई देगा।
तालिका स्तंभ नामों को भी प्रदर्शित करती है। हम अपने एमएल एल्गोरिथ्म के लिए पहले चार कॉलम और अनुमानित आउटपुट के रूप में अंतिम कॉलम क्लास का उपयोग करेंगे। हम अपने एमएल एल्गोरिथम को कॉल में निम्नलिखित दो चर बनाकर इसे निर्दिष्ट करते हैं।
>>> features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
>>> output = 'class'
इसके बाद, हम विभाजित_फ्रेम विधि को कॉल करके डेटा को प्रशिक्षण और परीक्षण में विभाजित करते हैं।
>>> train, test = data.split_frame(ratios = [0.8])
डेटा 80:20 अनुपात में विभाजित है। हम प्रशिक्षण के लिए 80% डेटा और परीक्षण के लिए 20% का उपयोग करते हैं।
अब, हम अंतर्निहित रैंडम फ़ॉरेस्ट मॉडल को सिस्टम में लोड करते हैं।
>>> model = H2ORandomForestEstimator(ntrees = 50, max_depth = 20, nfolds = 10)
उपरोक्त कॉल में, हम पेड़ों की संख्या को 50 पर सेट करते हैं, पेड़ की अधिकतम गहराई 20 और क्रॉस सत्यापन के लिए सिलवटों की संख्या 10. हमें अब मॉडल को प्रशिक्षित करने की आवश्यकता है। हम ट्रेन विधि को कॉल करके ऐसा करते हैं -
>>> model.train(x = features, y = output, training_frame = train)
ट्रेन विधि उन विशेषताओं और आउटपुट को प्राप्त करती है जो हमने पहले दो मापदंडों के रूप में बनाए थे। प्रशिक्षण डेटासेट को प्रशिक्षित करने के लिए सेट किया गया है, जो हमारे पूर्ण डेटासेट का 80% है। प्रशिक्षण के दौरान, आप यहाँ दिखाए गए अनुसार प्रगति देखेंगे -
अब, जैसा कि मॉडल निर्माण प्रक्रिया समाप्त हो गई है, यह मॉडल का परीक्षण करने का समय है। हम प्रशिक्षित मॉडल ऑब्जेक्ट पर model_performance पद्धति को कॉल करके ऐसा करते हैं।
>>> performance = model.model_performance(test_data=test)
उपरोक्त विधि कॉल में, हमने अपने पैरामीटर के रूप में परीक्षण डेटा भेजा।
अब आउटपुट देखने का समय आ गया है, जो हमारे मॉडल का प्रदर्शन है। आप केवल प्रदर्शन को प्रिंट करके ऐसा करते हैं।
>>> print (performance)
यह आपको निम्न आउटपुट देगा -
आउटपुट मीन स्क्वायर एरर (MSE), रूट मीन स्क्वायर एरर (RMSE), LogLoss और यहां तक कि कन्फ्यूजन मैट्रिक्स दिखाता है।
जुपिटर में चल रहा है
हमने कमांड से निष्पादन को देखा है और कोड की प्रत्येक पंक्ति के उद्देश्य को भी समझा है। आप पूरे कोड को जुपिटर के वातावरण में चला सकते हैं, या तो लाइन से लाइन या पूरे प्रोग्राम को एक बार में। पूरी सूची यहाँ दी गई है -
import h2o
from h2o.estimators import H2ORandomForestEstimator
h2o.init()
data = h2o.import_file('iris.csv')
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
train, test = data.split_frame(ratios=[0.8])
model = H2ORandomForestEstimator(ntrees = 50, max_depth = 20, nfolds = 10)
model.train(x = features, y = output, training_frame = train)
performance = model.model_performance(test_data=test)
print (performance)
कोड चलाएं और आउटपुट देखें। अब आप यह देख सकते हैं कि अपने डेटासेट पर रैंडम फ़ॉरेस्ट एल्गोरिथ्म को लागू करना और परीक्षण करना कितना आसान है। H20 की शक्ति इस क्षमता से कहीं अधिक है। यदि आप बेहतर प्रदर्शन प्राप्त कर सकते हैं, तो यह देखने के लिए कि आप उसी डेटासेट पर कोई अन्य मॉडल आज़माना चाहते हैं या नहीं। यह हमारे बाद के अनुभाग में समझाया गया है।
एक अलग एल्गोरिथम लागू करना
अब, हम सीखेंगे कि हमारे पूर्व के डाटासेट में एक ग्रैडिएंट बूस्टिंग एल्गोरिदम कैसे लागू किया जाए, यह देखने के लिए कि यह कैसे प्रदर्शन करता है। उपरोक्त पूर्ण सूची में, आपको नीचे दिए गए कोड में केवल दो मामूली बदलाव करने होंगे -
import h2o
from h2o.estimators import H2OGradientBoostingEstimator
h2o.init()
data = h2o.import_file('iris.csv')
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
train, test = data.split_frame(ratios = [0.8])
model = H2OGradientBoostingEstimator
(ntrees = 50, max_depth = 20, nfolds = 10)
model.train(x = features, y = output, training_frame = train)
performance = model.model_performance(test_data = test)
print (performance)
कोड चलाएँ और आपको निम्न आउटपुट मिलेंगे -
बस पिछले आउटपुट के साथ MSE, RMSE, कन्फ्यूजन मैट्रिक्स इत्यादि जैसे परिणामों की तुलना करें और यह तय करें कि उत्पादन तैनाती के लिए किसका उपयोग करना है। तथ्य की बात के रूप में, आप अपने उद्देश्य को पूरा करने वाले सर्वश्रेष्ठ पर निर्णय लेने के लिए कई अलग-अलग एल्गोरिदम लागू कर सकते हैं।
अंतिम पाठ में, आपने कमांड लाइन इंटरफ़ेस का उपयोग करके H2O आधारित ML मॉडल बनाना सीखा। एच 2 ओ फ्लो एक ही उद्देश्य को पूरा करता है, लेकिन एक वेब-आधारित इंटरफ़ेस के साथ।
निम्नलिखित पाठों में, मैं आपको दिखाऊंगा कि एच 2 ओ फ्लो कैसे शुरू करें और एक नमूना अनुप्रयोग चलाने के लिए।
H2O फ्लो शुरू करना
आपके द्वारा पहले डाउनलोड की गई H2O की स्थापना में h2o.jar फ़ाइल है। H2O फ़्लो शुरू करने के लिए, पहले इस जार को कमांड प्रॉम्प्ट से चलाएँ -
$ java -jar h2o.jar
जब जार सफलतापूर्वक चलता है, तो आपको कंसोल पर निम्न संदेश मिलेगा -
Open H2O Flow in your web browser: http://192.168.1.10:54321
अब, अपनी पसंद का ब्राउज़र खोलें और उपरोक्त URL टाइप करें। आपको H2O वेब-आधारित डेस्कटॉप दिखाई देगा जैसा कि यहाँ दिखाया गया है -
यह मूल रूप से कोलाब या जुपिटर के समान एक नोटबुक है। मैं आपको दिखाऊंगा कि फ्लो में विभिन्न विशेषताओं की व्याख्या करते हुए इस नोटबुक में एक नमूना एप्लिकेशन को कैसे लोड और चलाया जा सकता है। दिए गए उदाहरणों की सूची देखने के लिए उपरोक्त स्क्रीन पर फ्लो लिंक पर देखें उदाहरण पर क्लिक करें।
मैं नमूने से एयरलाइंस देरी प्रवाह उदाहरण का वर्णन करूंगा।
नीचे दिए गए स्क्रीनशॉट में दिखाए गए नमूनों की सूची में एयरलाइंस देरी प्रवाह लिंक पर क्लिक करें -
आपके द्वारा पुष्टि करने के बाद, नया नोटबुक लोड किया जाएगा।
सभी आउटपुट समाशोधन
इससे पहले कि हम नोटबुक में कोड स्टेटमेंट की व्याख्या करें, हम सभी आउटपुट को क्लियर कर दें और फिर नोटबुक को धीरे-धीरे चलाएं। सभी आउटपुट साफ़ करने के लिए, निम्न मेनू विकल्प का चयन करें -
Flow / Clear All Cell Contents
यह निम्नलिखित स्क्रीनशॉट में दिखाया गया है -
एक बार सभी आउटपुट क्लियर हो जाने के बाद, हम प्रत्येक सेल को नोटबुक में अलग-अलग चलाएंगे और इसके आउटपुट की जांच करेंगे।
फर्स्ट सेल चल रहा है
पहले सेल पर क्लिक करें। बाईं ओर एक लाल झंडा दिखाई देता है जो दर्शाता है कि सेल का चयन किया गया है। यह नीचे स्क्रीनशॉट में दिखाया गया है -
इस सेल की सामग्री केवल मार्कडाउन (एमडी) भाषा में लिखी गई कार्यक्रम टिप्पणी है। सामग्री बताती है कि लोड किया गया आवेदन क्या करता है। सेल चलाने के लिए, नीचे दिए गए स्क्रीनशॉट में दिखाए अनुसार रन आइकन पर क्लिक करें -
आप सेल के नीचे कोई आउटपुट नहीं देखेंगे क्योंकि वर्तमान सेल में कोई निष्पादन योग्य कोड नहीं है। कर्सर अब स्वचालित रूप से अगले सेल में चला जाता है, जो निष्पादित करने के लिए तैयार है।
डेटा आयात करना
अगले सेल में निम्नलिखित पायथन स्टेटमेंट शामिल हैं -
importFiles ["https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv"]
कथन सिस्टम में Amazon AWS से allyears2k.csv फ़ाइल आयात करता है। जब आप सेल चलाते हैं, तो यह फ़ाइल को आयात करता है और आपको निम्न आउटपुट देता है।
डेटा पार्सर की स्थापना
अब, हमें डेटा को पार्स करने और इसे हमारे एमएल एल्गोरिथम के लिए उपयुक्त बनाने की आवश्यकता है। यह निम्नलिखित कमांड का उपयोग करके किया जाता है -
setupParse paths: [ "https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv" ]
उपरोक्त कथन के निष्पादन पर, सेटअप कॉन्फ़िगरेशन संवाद प्रकट होता है। संवाद आपको फ़ाइल को पार्स करने के लिए कई सेटिंग्स की अनुमति देता है। यह नीचे स्क्रीनशॉट में दिखाया गया है -
इस संवाद में, आप दिए गए ड्रॉप-डाउन सूची से वांछित पार्सर का चयन कर सकते हैं और अन्य मापदंडों जैसे कि क्षेत्र विभाजक, आदि को सेट कर सकते हैं।
पार्सिंग डेटा
अगला बयान, जो वास्तव में उपरोक्त विन्यास का उपयोग करके डेटाफाइल को पार्स करता है, एक लंबा है और जैसा कि यहां दिखाया गया है -
parseFiles
paths: ["https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv"]
destination_frame: "allyears2k.hex"
parse_type: "CSV"
separator: 44
number_columns: 31
single_quotes: false
column_names: ["Year","Month","DayofMonth","DayOfWeek","DepTime","CRSDepTime",
"ArrTime","CRSArrTime","UniqueCarrier","FlightNum","TailNum",
"ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
"Origin","Dest","Distance","TaxiIn","TaxiOut","Cancelled","CancellationCode",
"Diverted","CarrierDelay","WeatherDelay","NASDelay","SecurityDelay",
"LateAircraftDelay","IsArrDelayed","IsDepDelayed"]
column_types: ["Enum","Enum","Enum","Enum","Numeric","Numeric","Numeric"
,"Numeric","Enum","Enum","Enum","Numeric","Numeric","Numeric","Numeric",
"Numeric","Enum","Enum","Numeric","Numeric","Numeric","Enum","Enum",
"Numeric","Numeric","Numeric","Numeric","Numeric","Numeric","Enum","Enum"]
delete_on_done: true
check_header: 1
chunk_size: 4194304
देखें कि कॉन्फ़िगरेशन बॉक्स में आपके द्वारा सेट किए गए पैरामीटर उपरोक्त कोड में सूचीबद्ध हैं। अब, इस सेल को चलाएं। थोड़ी देर बाद, पार्सिंग पूरी हो जाती है और आपको निम्न आउटपुट दिखाई देगा -
डेटाफ़्रेम की जांच करना
प्रसंस्करण के बाद, यह एक डेटाफ्रेम उत्पन्न करता है, जिसे निम्नलिखित कथन का उपयोग करके जांच की जा सकती है -
getFrameSummary "allyears2k.hex"
उपरोक्त कथन के निष्पादन पर, आप निम्न आउटपुट देखेंगे -
अब, आपका डेटा मशीन लर्निंग एल्गोरिथम में फीड किया जा सकता है।
अगला बयान एक कार्यक्रम टिप्पणी है जो कहती है कि हम प्रतिगमन मॉडल का उपयोग करेंगे और पूर्व निर्धारित नियमितीकरण और लंबो मूल्यों को निर्दिष्ट करेंगे।
मॉडल का निर्माण
इसके बाद, सबसे महत्वपूर्ण कथन आता है और वह मॉडल का निर्माण कर रहा है। यह निम्नलिखित कथन में निर्दिष्ट है -
buildModel 'glm', {
"model_id":"glm_model","training_frame":"allyears2k.hex",
"ignored_columns":[
"DayofMonth","DepTime","CRSDepTime","ArrTime","CRSArrTime","TailNum",
"ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
"TaxiIn","TaxiOut","Cancelled","CancellationCode","Diverted","CarrierDelay",
"WeatherDelay","NASDelay","SecurityDelay","LateAircraftDelay","IsArrDelayed"],
"ignore_const_cols":true,"response_column":"IsDepDelayed","family":"binomial",
"solver":"IRLSM","alpha":[0.5],"lambda":[0.00001],"lambda_search":false,
"standardize":true,"non_negative":false,"score_each_iteration":false,
"max_iterations":-1,"link":"family_default","intercept":true,
"objective_epsilon":0.00001,"beta_epsilon":0.0001,"gradient_epsilon":0.0001,
"prior":-1,"max_active_predictors":-1
}
हम glm का उपयोग करते हैं, जो द्विपद के लिए सेट परिवार प्रकार के साथ एक सामान्यीकृत रैखिक मॉडल सूट है। आप उपरोक्त कथन में इन पर प्रकाश डाल सकते हैं। हमारे मामले में, अपेक्षित आउटपुट द्विआधारी है और यही कारण है कि हम द्विपद प्रकार का उपयोग करते हैं। आप स्वयं द्वारा अन्य मापदंडों की जांच कर सकते हैं; उदाहरण के लिए, अल्फा और लैम्ब्डा को देखें जिन्हें हमने पहले निर्दिष्ट किया था। सभी मापदंडों की व्याख्या के लिए GLM मॉडल प्रलेखन देखें।
अब, इस कथन को चलाएं। निष्पादन के बाद, निम्न आउटपुट उत्पन्न होगा -
निश्चित रूप से, निष्पादन का समय आपकी मशीन पर अलग होगा। अब, इस नमूना कोड का सबसे दिलचस्प हिस्सा आता है।
आउटपुट की जांच
हम केवल उस मॉडल का आउटपुट करते हैं जिसे हमने निम्नलिखित कथन का उपयोग करके बनाया है -
getModel "glm_model"
ध्यान दें कि glm_model मॉडल आईडी है जिसे हमने पिछले बयान में मॉडल का निर्माण करते समय मॉडल_ड पैरामीटर के रूप में निर्दिष्ट किया था। यह हमें कई अलग-अलग मापदंडों के साथ परिणामों का विवरण देने वाला एक विशाल आउटपुट देता है। रिपोर्ट का आंशिक आउटपुट नीचे स्क्रीनशॉट में दिखाया गया है -
जैसा कि आप आउटपुट में देख सकते हैं, यह कहता है कि यह आपके डेटासेट पर सामान्यीकृत रैखिक मॉडलिंग एल्गोरिथ्म को चलाने का परिणाम है।
SCORING HISTORY के ठीक ऊपर, आपको MODEL PARAMETERS टैग दिखाई देता है, इसे विस्तारित करें और आप मॉडल बनाते समय उपयोग किए जाने वाले सभी मापदंडों की सूची देखेंगे। यह नीचे स्क्रीनशॉट में दिखाया गया है।
इसी तरह, प्रत्येक टैग एक विशिष्ट प्रकार का एक विस्तृत आउटपुट प्रदान करता है। विभिन्न प्रकार के आउटपुट का अध्ययन करने के लिए स्वयं विभिन्न टैगों का विस्तार करें।
एक और मॉडल का निर्माण
अगला, हम अपने डेटाफ़्रेम पर एक डीप लर्निंग मॉडल बनाएंगे। नमूना कोड में अगला बयान सिर्फ एक कार्यक्रम टिप्पणी है। निम्नलिखित कथन वास्तव में एक मॉडल बिल्डिंग कमांड है। यह यहाँ दिखाया गया है -
buildModel 'deeplearning', {
"model_id":"deeplearning_model","training_frame":"allyear
s2k.hex","ignored_columns":[
"DepTime","CRSDepTime","ArrTime","CRSArrTime","FlightNum","TailNum",
"ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
"TaxiIn","TaxiOut","Cancelled","CancellationCode","Diverted",
"CarrierDelay","WeatherDelay","NASDelay","SecurityDelay",
"LateAircraftDelay","IsArrDelayed"],
"ignore_const_cols":true,"res ponse_column":"IsDepDelayed",
"activation":"Rectifier","hidden":[200,200],"epochs":"100",
"variable_importances":false,"balance_classes":false,
"checkpoint":"","use_all_factor_levels":true,
"train_samples_per_iteration":-2,"adaptive_rate":true,
"input_dropout_ratio":0,"l1":0,"l2":0,"loss":"Automatic","score_interval":5,
"score_training_samples":10000,"score_duty_cycle":0.1,"autoencoder":false,
"overwrite_with_best_model":true,"target_ratio_comm_to_comp":0.02,
"seed":6765686131094811000,"rho":0.99,"epsilon":1e-8,"max_w2":"Infinity",
"initial_weight_distribution":"UniformAdaptive","classification_stop":0,
"diagnostics":true,"fast_mode":true,"force_load_balance":true,
"single_node_mode":false,"shuffle_training_data":false,"missing_values_handling":
"MeanImputation","quiet_mode":false,"sparse":false,"col_major":false,
"average_activation":0,"sparsity_beta":0,"max_categorical_features":2147483647,
"reproducible":false,"export_weights_and_biases":false
}
जैसा कि आप उपरोक्त कोड में देख सकते हैं, हम मॉडल के निर्माण के लिए कई मापदंडों के साथ deeplearning निर्दिष्ट करते हैं, जो कि deeplearning मॉडल के दस्तावेज़ में निर्दिष्ट उचित मानों के लिए सेट है। जब आप यह कथन चलाते हैं, तो GLM मॉडल बिल्डिंग की तुलना में अधिक समय लगेगा। मॉडल का निर्माण पूरा होने पर आपको निम्नलिखित आउटपुट दिखाई देगा, भले ही अलग-अलग समय के साथ।
डीप लर्निंग मॉडल आउटपुट की जांच
यह उस प्रकार के आउटपुट को उत्पन्न करता है, जिसे निम्नलिखित कथन का उपयोग करके जांच की जा सकती है जैसा कि पहले वाले मामले में था।
getModel "deeplearning_model"
हम आरओसी वक्र उत्पादन पर विचार करेंगे जैसा कि त्वरित संदर्भ के लिए नीचे दिखाया गया है।
पहले के मामले की तरह, विभिन्न टैब का विस्तार करें और विभिन्न आउटपुट का अध्ययन करें।
मॉडल सहेजना
आपके द्वारा विभिन्न मॉडलों के आउटपुट का अध्ययन करने के बाद, आप अपने उत्पादन वातावरण में से एक का उपयोग करने का निर्णय लेते हैं। H20 आपको इस मॉडल को POJO (प्लेन ओल्ड जावा ऑब्जेक्ट) के रूप में सहेजने की अनुमति देता है।
आउटपुट में अंतिम टैग PREVIEW POJO का विस्तार करें और आपको अपने ठीक-ठीक मॉडल के लिए जावा कोड दिखाई देगा। अपने उत्पादन परिवेश में इसका उपयोग करें।
आगे, हम H2O की एक बहुत ही रोमांचक विशेषता के बारे में जानेंगे। हम सीखेंगे कि अपने प्रदर्शन के आधार पर विभिन्न एल्गोरिदम का परीक्षण और रैंक करने के लिए ऑटोएमएल का उपयोग कैसे करें।
AutoML का उपयोग करने के लिए, एक नया Jupyter नोटबुक शुरू करें और नीचे दिखाए गए चरणों का पालन करें।
AutoML आयात कर रहा है
निम्नलिखित दो कथनों का उपयोग करके परियोजना में पहले H2O और AutoML पैकेज का आयात करें -
import h2o
from h2o.automl import H2OAutoML
H2O को प्रारंभ करें
निम्नलिखित कथन का उपयोग करके h2o को प्रारंभ करें -
h2o.init()
आपको स्क्रीन पर क्लस्टर जानकारी देखनी चाहिए जैसा कि नीचे स्क्रीनशॉट में दिखाया गया है -
डेटा लोड हो रहा है
हम उसी iris.csv डेटासेट का उपयोग करेंगे जिसका उपयोग आपने पहले इस ट्यूटोरियल में किया था। निम्नलिखित कथन का उपयोग कर डेटा लोड करें -
data = h2o.import_file('iris.csv')
डेटासेट तैयार करना
हमें सुविधाओं और भविष्यवाणी कॉलम पर निर्णय लेने की आवश्यकता है। हम अपने पहले के मामले की तरह ही फीचर्स और प्रिडिक्शन कॉलम का उपयोग करते हैं। निम्नलिखित दो कथनों का उपयोग करके सुविधाओं और आउटपुट कॉलम को सेट करें -
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
प्रशिक्षण और परीक्षण के लिए 80:20 अनुपात में डेटा विभाजित करें -
train, test = data.split_frame(ratios=[0.8])
ऑटोएमएल लागू करना
अब, हम अपने डेटासेट पर AutoML लागू करने के लिए पूरी तरह तैयार हैं। ऑटोएमएल हमारे द्वारा निर्धारित समय के लिए चलेगा और हमें अनुकूलित मॉडल देगा। हमने निम्नलिखित कथन का उपयोग करते हुए AutoML की स्थापना की -
aml = H2OAutoML(max_models = 30, max_runtime_secs=300, seed = 1)
पहला पैरामीटर उन मॉडलों की संख्या निर्दिष्ट करता है जिन्हें हम मूल्यांकन और तुलना करना चाहते हैं।
दूसरा पैरामीटर उस समय को निर्दिष्ट करता है जिसके लिए एल्गोरिथ्म चलता है।
अब हम यहां दिखाए गए अनुसार AutoML ऑब्जेक्ट पर ट्रेन विधि कहते हैं -
aml.train(x = features, y = output, training_frame = train)
हम एक्स को उन विशेषताओं सरणी के रूप में निर्दिष्ट करते हैं जो हमने पहले बनाई थी, y अनुमानित मान और डेटाफ़्रेम को इंगित करने के लिए आउटपुट चर के रूप में वाई train डाटासेट।
कोड चलाएं, आपको 5 मिनट तक इंतजार करना होगा (जब तक आप निम्नलिखित आउटपुट प्राप्त नहीं करते हैं, हम अधिकतम_रंटटाइम_सैक 300 तक सेट करते हैं) -
लीडरबोर्ड छपाई
जब ऑटोएमएल प्रसंस्करण पूरा हो जाता है, तो यह उन सभी 30 एल्गोरिदम को रैंकिंग करने वाला लीडरबोर्ड बनाता है जिसका उसने मूल्यांकन किया है। लीडरबोर्ड के पहले 10 रिकॉर्ड देखने के लिए, निम्नलिखित कोड का उपयोग करें -
lb = aml.leaderboard
lb.head()
निष्पादन पर, उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करेगा -
स्पष्ट रूप से, DeepLearning एल्गोरिथ्म को अधिकतम अंक मिला है।
टेस्ट डेटा पर निर्भर
अब, आपके पास रैंक वाले मॉडल हैं, आप अपने परीक्षण डेटा पर टॉप-रेटेड मॉडल का प्रदर्शन देख सकते हैं। ऐसा करने के लिए, निम्नलिखित कोड स्टेटमेंट चलाएं -
preds = aml.predict(test)
प्रसंस्करण थोड़ी देर तक जारी रहता है और पूरा होने पर आपको निम्न आउटपुट दिखाई देगा।
मुद्रण परिणाम
निम्नलिखित कथन का उपयोग करके अनुमानित परिणाम प्रिंट करें -
print (preds)
उपरोक्त कथन के निष्पादन पर, आप निम्नलिखित परिणाम देखेंगे -
सभी के लिए रैंकिंग मुद्रण
यदि आप सभी परीक्षण किए गए एल्गोरिदम की रैंक देखना चाहते हैं, तो निम्न कोड स्टेटमेंट चलाएं -
lb.head(rows = lb.nrows)
उपरोक्त कथन के निष्पादन पर, निम्नलिखित आउटपुट उत्पन्न होंगे (आंशिक रूप से दिखाए गए) -
निष्कर्ष
एच 2 ओ किसी दिए गए डेटासेट पर विभिन्न एमएल एल्गोरिदम को लागू करने के लिए एक आसान-से-खुला उपयोग स्रोत मंच प्रदान करता है। यह गहरी शिक्षा सहित कई सांख्यिकीय और एमएल एल्गोरिदम प्रदान करता है। परीक्षण के दौरान, आप इन एल्गोरिदम के मापदंडों को ठीक कर सकते हैं। आप कमांड-लाइन या फ़्लो नामक वेब-आधारित इंटरफ़ेस का उपयोग करके ऐसा कर सकते हैं। H2O भी AutoML का समर्थन करता है जो उनके प्रदर्शन के आधार पर कई एल्गोरिदम के बीच रैंकिंग प्रदान करता है। H2O बिग डाटा पर भी अच्छा प्रदर्शन करता है। यह निश्चित रूप से डेटा साइंटिस्ट के लिए अपने डेटासेट पर विभिन्न मशीन लर्निंग मॉडल लागू करने और उनकी जरूरतों को पूरा करने के लिए सबसे अच्छा लेने के लिए एक वरदान है।