एच 2 ओ - स्थापना
H2O को कॉन्फ़िगर किया जा सकता है और नीचे सूचीबद्ध पांच विभिन्न विकल्पों के साथ उपयोग किया जा सकता है -
अजगर में स्थापित करें
आर में स्थापित करें
वेब-आधारित फ्लो जीयूआई
Hadoop
एनाकोंडा क्लाउड
हमारे बाद के अनुभागों में, आप उपलब्ध विकल्पों के आधार पर H2O की स्थापना के लिए निर्देश देखेंगे। आप विकल्पों में से एक का उपयोग करने की संभावना है।
अजगर में स्थापित करें
पायथन के साथ एच 2 ओ को चलाने के लिए, स्थापना के लिए कई निर्भरताओं की आवश्यकता होती है। तो आइए हम एच 2 ओ को चलाने के लिए निर्भरता के न्यूनतम सेट को स्थापित करना शुरू करें।
निर्भरता स्थापित करना
एक निर्भरता स्थापित करने के लिए, निम्नलिखित पाइप कमांड को निष्पादित करें -
$ pip install requests
अपनी कंसोल विंडो खोलें और अनुरोध पैकेज को स्थापित करने के लिए उपरोक्त कमांड टाइप करें। निम्नलिखित स्क्रीनशॉट हमारे मैक मशीन पर उपरोक्त कमांड के निष्पादन को दर्शाता है -
अनुरोधों को स्थापित करने के बाद, आपको नीचे दिखाए गए अनुसार तीन और पैकेज स्थापित करने की आवश्यकता है -
$ pip install tabulate
$ pip install "colorama >= 0.3.8"
$ pip install future
निर्भरता की सबसे अद्यतन सूची H2O GitHub पृष्ठ पर उपलब्ध है। इस लेखन के समय, निम्नलिखित निर्भरताएं पृष्ठ पर सूचीबद्ध हैं।
python 2. H2O — Installation
pip >= 9.0.1
setuptools
colorama >= 0.3.7
future >= 0.15.2
पुराने संस्करणों को हटाना
उपरोक्त निर्भरताएं स्थापित करने के बाद, आपको किसी भी मौजूदा एच 2 ओ स्थापना को हटाने की आवश्यकता है। ऐसा करने के लिए, निम्नलिखित कमांड चलाएँ -
$ pip uninstall h2o
नवीनतम संस्करण को स्थापित करना
अब, हम निम्नलिखित कमांड का उपयोग करके H2O का नवीनतम संस्करण स्थापित करते हैं -
$ pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o
सफल स्थापना के बाद, आपको स्क्रीन पर निम्न संदेश डिस्प्ले देखना चाहिए -
Installing collected packages: h2o
Successfully installed h2o-3.26.0.1
स्थापना का परीक्षण
इंस्टॉलेशन का परीक्षण करने के लिए, हम एच 2 ओ इंस्टॉलेशन में प्रदान किए गए नमूना अनुप्रयोगों में से एक को चलाएंगे। पहले निम्नलिखित कमांड टाइप करके पायथन प्रॉम्प्ट शुरू करें -
$ Python3
एक बार पायथन इंटरप्रिटर शुरू होने के बाद, पायथन कमांड प्रॉम्प्ट पर निम्नलिखित पायथन स्टेटमेंट टाइप करें -
>>>import h2o
उपरोक्त कमांड आपके प्रोग्राम में H2O पैकेज को आयात करता है। अगला, निम्न कमांड का उपयोग करके H2O सिस्टम को इनिशियलाइज़ करें -
>>>h2o.init()
आपकी स्क्रीन क्लस्टर जानकारी दिखाएगी और इस स्तर पर निम्नलिखित देखना चाहिए -
अब, आप नमूना कोड चलाने के लिए तैयार हैं। पायथन प्रांप्ट पर निम्न कमांड टाइप करें और इसे निष्पादित करें।
>>>h2o.demo("glm")
डेमो में पायथन नोटबुक के साथ कमांड की एक श्रृंखला होती है। प्रत्येक कमांड को निष्पादित करने के बाद, इसका आउटपुट स्क्रीन पर तुरंत दिखाया जाता है और आपको अगले चरण को जारी रखने के लिए कुंजी को हिट करने के लिए कहा जाएगा। नोटबुक में अंतिम विवरण निष्पादित करने पर आंशिक स्क्रीनशॉट यहाँ दिखाया गया है -
इस स्तर पर आपका पायथन इंस्टॉलेशन पूरा हो गया है और आप अपने स्वयं के प्रयोग के लिए तैयार हैं।
आर में स्थापित करें
आर विकास के लिए एच 2 ओ स्थापित करना पायथन के लिए इसे स्थापित करने के समान है, सिवाय इसके कि आप स्थापना के लिए आर प्रॉम्प्ट का उपयोग करेंगे।
आर कंसोल को शुरू करना
अपनी मशीन पर R एप्लिकेशन आइकन पर क्लिक करके आर कंसोल शुरू करें। कंसोल स्क्रीन निम्न स्क्रीनशॉट में दिखाया गया है -
आपका H2O इंस्टॉलेशन उपरोक्त R प्रॉम्प्ट पर किया जाएगा। यदि आप RStudio का उपयोग करना पसंद करते हैं, तो R कंसोल सबविंडो में कमांड टाइप करें।
पुराने संस्करणों को हटाना
आर प्रॉम्प्ट पर निम्नलिखित कमांड का उपयोग करके पुराने संस्करणों को हटाने के लिए -
> if ("package:h2o" %in% search()) { detach("package:h2o", unload=TRUE) }
> if ("h2o" %in% rownames(installed.packages())) { remove.packages("h2o") }
निर्भरताएँ डाउनलोड करना
निम्नलिखित कोड का उपयोग करके H2O के लिए निर्भरताएं डाउनलोड करें -
> pkgs <- c("RCurl","jsonlite")
for (pkg in pkgs) {
if (! (pkg %in% rownames(installed.packages()))) { install.packages(pkg) }
}
H2O को स्थापित करना
R प्रॉम्प्ट पर निम्न कमांड टाइप करके H2O स्थापित करें -
> install.packages("h2o", type = "source", repos = (c("http://h2o-release.s3.amazonaws.com/h2o/latest_stable_R")))
निम्न स्क्रीनशॉट अपेक्षित आउटपुट दिखाता है -
आर में एच 2 ओ स्थापित करने का एक और तरीका है।
सीआरएएन से आर में स्थापित करें
सीआरएएन से आर स्थापित करने के लिए, आर प्रॉम्पट पर निम्नलिखित कमांड का उपयोग करें -
> install.packages("h2o")
आपको दर्पण का चयन करने के लिए कहा जाएगा -
--- Please select a CRAN mirror for use in this session ---
दर्पण साइटों की सूची प्रदर्शित करने वाला एक संवाद बॉक्स आपकी स्क्रीन पर दिखाया गया है। निकटतम स्थान या अपनी पसंद का दर्पण चुनें।
परीक्षण स्थापना
R प्रॉम्प्ट पर, निम्न कोड टाइप करें और चलाएं -
> library(h2o)
> localH2O = h2o.init()
> demo(h2o.kmeans)
उत्पन्न आउटपुट निम्न स्क्रीनशॉट में दिखाया जाएगा -
R में आपका H2O इंस्टॉलेशन अब पूरा हो गया है।
वेब जीयूआई फ्लो स्थापित करना
GUI फ्लो को स्थापित करने के लिए H20 साइट से इंस्टॉलेशन फ़ाइल डाउनलोड करें। अपने पसंदीदा फ़ोल्डर में डाउनलोड की गई फ़ाइल को अनज़िप करें। स्थापना में h2o.jar फ़ाइल की उपस्थिति पर ध्यान दें। निम्न कमांड का उपयोग करके इस फाइल को कमांड विंडो में चलाएं -
$ java -jar h2o.jar
थोड़ी देर के बाद, आपकी कंसोल विंडो में निम्नलिखित दिखाई देगा।
07-24 16:06:37.304 192.168.1.18:54321 3294 main INFO: H2O started in 7725ms
07-24 16:06:37.304 192.168.1.18:54321 3294 main INFO:
07-24 16:06:37.305 192.168.1.18:54321 3294 main INFO: Open H2O Flow in your web browser: http://192.168.1.18:54321
07-24 16:06:37.305 192.168.1.18:54321 3294 main INFO:
फ़्लो शुरू करने के लिए, दिए गए URL को खोलें http://localhost:54321आपके ब्राउज़र में। निम्न स्क्रीन दिखाई देगी -
इस स्तर पर, आपका फ्लो इंस्टॉलेशन पूरा हो गया है।
Hadoop / Anaconda Cloud पर इंस्टॉल करें
जब तक आप एक अनुभवी डेवलपर नहीं होते, आप बिग डेटा पर H2O का उपयोग करने के बारे में नहीं सोचते। यहां यह कहना पर्याप्त है कि एच 2 ओ मॉडल कई टेराबाइट्स के विशाल डेटाबेस पर कुशलतापूर्वक चलते हैं। यदि आपका डेटा आपके Hadoop इंस्टॉलेशन या क्लाउड में है, तो अपने संबंधित डेटाबेस के लिए इसे स्थापित करने के लिए H2O साइट पर दिए गए चरणों का पालन करें।
अब जब आपने अपनी मशीन पर H2O को सफलतापूर्वक स्थापित और परीक्षण कर लिया है, तो आप वास्तविक विकास के लिए तैयार हैं। सबसे पहले, हम एक कमांड प्रॉम्प्ट से विकास देखेंगे। अपने बाद के पाठों में, हम सीखेंगे कि एच 2 ओ फ्लो में मॉडल परीक्षण कैसे करें।
कमांड प्रॉम्प्ट में विकास करना
आइए अब हम एच 2 ओ का उपयोग करते हुए प्रसिद्ध आइरिस डाटासेट के पौधों को वर्गीकृत करने पर विचार करें जो मशीन लर्निंग अनुप्रयोगों को विकसित करने के लिए स्वतंत्र रूप से उपलब्ध हैं।
अपनी शेल विंडो में निम्न कमांड टाइप करके अजगर इंटरप्रेटर शुरू करें -
$ Python3
इससे पायथन इंटरप्रेटर शुरू होता है। निम्न कमांड का उपयोग करके h2o प्लेटफॉर्म आयात करें -
>>> import h2o
हम वर्गीकरण के लिए रैंडम फॉरेस्ट एल्गोरिथ्म का उपयोग करेंगे। यह H2ORandomForestEstimator पैकेज में प्रदान किया गया है। हम इस पैकेज को आयात विवरण का उपयोग करके आयात करते हैं -
>>> from h2o.estimators import H2ORandomForestEstimator
हम इसकी init विधि को कॉल करके H2o वातावरण को आरंभीकृत करते हैं।
>>> h2o.init()
सफल आरंभीकरण पर, आपको क्लस्टर जानकारी के साथ कंसोल पर निम्न संदेश देखना चाहिए।
Checking whether there is an H2O instance running at http://localhost:54321 . connected.
अब, हम H2O में import_file पद्धति का उपयोग करके आईरिस डेटा आयात करेंगे।
>>> data = h2o.import_file('iris.csv')
निम्न स्क्रीनशॉट में दिखाए अनुसार प्रगति प्रदर्शित होगी -
फ़ाइल को मेमोरी में लोड होने के बाद, आप लोड की गई तालिका की पहली 10 पंक्तियों को प्रदर्शित करके इसे सत्यापित कर सकते हैं। आप का उपयोग करेंhead ऐसा करने की विधि -
>>> data.head()
आपको निम्न आउटपुट सारणीबद्ध प्रारूप में दिखाई देगा।
तालिका स्तंभ नामों को भी प्रदर्शित करती है। हम अपने एमएल एल्गोरिथ्म के लिए पहले चार कॉलम और अनुमानित आउटपुट के रूप में अंतिम कॉलम क्लास का उपयोग करेंगे। हम अपने एमएल एल्गोरिथम को कॉल में निम्नलिखित दो चर बनाकर इसे निर्दिष्ट करते हैं।
>>> features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
>>> output = 'class'
इसके बाद, हम विभाजित_फ्रेम विधि को कॉल करके डेटा को प्रशिक्षण और परीक्षण में विभाजित करते हैं।
>>> train, test = data.split_frame(ratios = [0.8])
डेटा 80:20 अनुपात में विभाजित है। हम प्रशिक्षण के लिए 80% डेटा और परीक्षण के लिए 20% का उपयोग करते हैं।
अब, हम अंतर्निहित रैंडम फ़ॉरेस्ट मॉडल को सिस्टम में लोड करते हैं।
>>> model = H2ORandomForestEstimator(ntrees = 50, max_depth = 20, nfolds = 10)
उपरोक्त कॉल में, हम पेड़ों की संख्या को 50 पर सेट करते हैं, पेड़ की अधिकतम गहराई 20 और क्रॉस सत्यापन के लिए सिलवटों की संख्या 10. हमें अब मॉडल को प्रशिक्षित करने की आवश्यकता है। हम ट्रेन विधि को कॉल करके ऐसा करते हैं -
>>> model.train(x = features, y = output, training_frame = train)
ट्रेन विधि उन विशेषताओं और आउटपुट को प्राप्त करती है जो हमने पहले दो मापदंडों के रूप में बनाए थे। प्रशिक्षण डेटासेट को प्रशिक्षित करने के लिए सेट किया गया है, जो हमारे पूर्ण डेटासेट का 80% है। प्रशिक्षण के दौरान, आप यहाँ दिखाए गए अनुसार प्रगति देखेंगे -
अब, जैसा कि मॉडल निर्माण प्रक्रिया समाप्त हो गई है, यह मॉडल का परीक्षण करने का समय है। हम प्रशिक्षित मॉडल ऑब्जेक्ट पर model_performance पद्धति को कॉल करके ऐसा करते हैं।
>>> performance = model.model_performance(test_data=test)
उपरोक्त विधि कॉल में, हमने अपने पैरामीटर के रूप में परीक्षण डेटा भेजा।
अब आउटपुट देखने का समय आ गया है, जो हमारे मॉडल का प्रदर्शन है। आप केवल प्रदर्शन को प्रिंट करके ऐसा करते हैं।
>>> print (performance)
यह आपको निम्न आउटपुट देगा -
आउटपुट मीन स्क्वायर एरर (MSE), रूट मीन स्क्वायर एरर (RMSE), LogLoss और यहां तक कि कन्फ्यूजन मैट्रिक्स दिखाता है।
जुपिटर में चल रहा है
हमने कमांड से निष्पादन को देखा है और कोड की प्रत्येक पंक्ति के उद्देश्य को भी समझा है। आप पूरे कोड को जुपिटर के वातावरण में चला सकते हैं, या तो लाइन से लाइन या पूरे प्रोग्राम को एक बार में। पूरी सूची यहाँ दी गई है -
import h2o
from h2o.estimators import H2ORandomForestEstimator
h2o.init()
data = h2o.import_file('iris.csv')
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
train, test = data.split_frame(ratios=[0.8])
model = H2ORandomForestEstimator(ntrees = 50, max_depth = 20, nfolds = 10)
model.train(x = features, y = output, training_frame = train)
performance = model.model_performance(test_data=test)
print (performance)
कोड चलाएं और आउटपुट देखें। अब आप यह देख सकते हैं कि अपने डेटासेट पर रैंडम फ़ॉरेस्ट एल्गोरिथ्म को लागू करना और परीक्षण करना कितना आसान है। H20 की शक्ति इस क्षमता से कहीं अधिक है। यदि आप बेहतर प्रदर्शन प्राप्त कर सकते हैं, तो यह देखने के लिए कि आप उसी डेटासेट पर कोई अन्य मॉडल आज़माना चाहते हैं या नहीं। यह हमारे बाद के अनुभाग में समझाया गया है।
एक अलग एल्गोरिथम लागू करना
अब, हम सीखेंगे कि हमारे पूर्व के डाटासेट में एक ग्रैडिएंट बूस्टिंग एल्गोरिदम कैसे लागू किया जाए, यह देखने के लिए कि यह कैसे प्रदर्शन करता है। उपरोक्त पूर्ण सूची में, आपको नीचे दिए गए कोड में केवल दो मामूली बदलाव करने होंगे -
import h2o
from h2o.estimators import H2OGradientBoostingEstimator
h2o.init()
data = h2o.import_file('iris.csv')
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
train, test = data.split_frame(ratios = [0.8])
model = H2OGradientBoostingEstimator
(ntrees = 50, max_depth = 20, nfolds = 10)
model.train(x = features, y = output, training_frame = train)
performance = model.model_performance(test_data = test)
print (performance)
कोड चलाएँ और आपको निम्न आउटपुट मिलेंगे -
बस पिछले आउटपुट के साथ MSE, RMSE, कन्फ्यूजन मैट्रिक्स इत्यादि जैसे परिणामों की तुलना करें और यह तय करें कि उत्पादन तैनाती के लिए किसका उपयोग करना है। तथ्य की बात के रूप में, आप अपने उद्देश्य को पूरा करने वाले सर्वश्रेष्ठ पर निर्णय लेने के लिए कई अलग-अलग एल्गोरिदम लागू कर सकते हैं।