एच 2 ओ - रनिंग सैंपल एप्लीकेशन
नीचे दिए गए स्क्रीनशॉट में दिखाए गए नमूनों की सूची में एयरलाइंस देरी प्रवाह लिंक पर क्लिक करें -
आपके द्वारा पुष्टि करने के बाद, नया नोटबुक लोड किया जाएगा।
सभी आउटपुट समाशोधन
इससे पहले कि हम नोटबुक में कोड स्टेटमेंट की व्याख्या करें, हम सभी आउटपुट को क्लियर कर दें और फिर नोटबुक को धीरे-धीरे चलाएं। सभी आउटपुट साफ़ करने के लिए, निम्न मेनू विकल्प का चयन करें -
Flow / Clear All Cell Contents
यह निम्नलिखित स्क्रीनशॉट में दिखाया गया है -
एक बार सभी आउटपुट क्लियर हो जाने के बाद, हम प्रत्येक सेल को नोटबुक में अलग-अलग चलाएंगे और इसके आउटपुट की जांच करेंगे।
फर्स्ट सेल चल रहा है
पहले सेल पर क्लिक करें। बाईं ओर एक लाल झंडा दिखाई देता है जो दर्शाता है कि सेल का चयन किया गया है। यह नीचे स्क्रीनशॉट में दिखाया गया है -
इस सेल की सामग्री केवल मार्कडाउन (एमडी) भाषा में लिखी गई कार्यक्रम टिप्पणी है। सामग्री बताती है कि लोड किया गया आवेदन क्या करता है। सेल चलाने के लिए, नीचे दिए गए स्क्रीनशॉट में दिखाए अनुसार रन आइकन पर क्लिक करें -
आप सेल के नीचे कोई आउटपुट नहीं देखेंगे क्योंकि वर्तमान सेल में कोई निष्पादन योग्य कोड नहीं है। कर्सर अब स्वचालित रूप से अगले सेल में चला जाता है, जो निष्पादित करने के लिए तैयार है।
डेटा आयात करना
अगले सेल में निम्नलिखित पायथन स्टेटमेंट शामिल हैं -
importFiles ["https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv"]
कथन सिस्टम में Amazon AWS से allyears2k.csv फ़ाइल आयात करता है। जब आप सेल चलाते हैं, तो यह फ़ाइल को आयात करता है और आपको निम्न आउटपुट देता है।
डेटा पार्सर की स्थापना
अब, हमें डेटा को पार्स करने और इसे हमारे एमएल एल्गोरिथम के लिए उपयुक्त बनाने की आवश्यकता है। यह निम्नलिखित कमांड का उपयोग करके किया जाता है -
setupParse paths: [ "https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv" ]
उपरोक्त कथन के निष्पादन पर, सेटअप कॉन्फ़िगरेशन संवाद प्रकट होता है। संवाद आपको फ़ाइल को पार्स करने के लिए कई सेटिंग्स की अनुमति देता है। यह नीचे स्क्रीनशॉट में दिखाया गया है -
इस संवाद में, आप दिए गए ड्रॉप-डाउन सूची से वांछित पार्सर का चयन कर सकते हैं और अन्य मापदंडों जैसे कि क्षेत्र विभाजक, आदि को सेट कर सकते हैं।
पार्सिंग डेटा
अगला बयान, जो वास्तव में उपरोक्त विन्यास का उपयोग करके डेटाफाइल को पार्स करता है, एक लंबा है और जैसा कि यहां दिखाया गया है -
parseFiles
paths: ["https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv"]
destination_frame: "allyears2k.hex"
parse_type: "CSV"
separator: 44
number_columns: 31
single_quotes: false
column_names: ["Year","Month","DayofMonth","DayOfWeek","DepTime","CRSDepTime",
"ArrTime","CRSArrTime","UniqueCarrier","FlightNum","TailNum",
"ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
"Origin","Dest","Distance","TaxiIn","TaxiOut","Cancelled","CancellationCode",
"Diverted","CarrierDelay","WeatherDelay","NASDelay","SecurityDelay",
"LateAircraftDelay","IsArrDelayed","IsDepDelayed"]
column_types: ["Enum","Enum","Enum","Enum","Numeric","Numeric","Numeric"
,"Numeric","Enum","Enum","Enum","Numeric","Numeric","Numeric","Numeric",
"Numeric","Enum","Enum","Numeric","Numeric","Numeric","Enum","Enum",
"Numeric","Numeric","Numeric","Numeric","Numeric","Numeric","Enum","Enum"]
delete_on_done: true
check_header: 1
chunk_size: 4194304
देखें कि कॉन्फ़िगरेशन बॉक्स में आपके द्वारा सेट किए गए पैरामीटर उपरोक्त कोड में सूचीबद्ध हैं। अब, इस सेल को चलाएं। थोड़ी देर बाद, पार्सिंग पूरी हो जाती है और आपको निम्न आउटपुट दिखाई देगा -
डेटाफ़्रेम की जांच करना
प्रसंस्करण के बाद, यह एक डेटाफ्रेम उत्पन्न करता है, जिसे निम्नलिखित कथन का उपयोग करके जांच की जा सकती है -
getFrameSummary "allyears2k.hex"
उपरोक्त कथन के निष्पादन पर, आप निम्न आउटपुट देखेंगे -
अब, आपका डेटा मशीन लर्निंग एल्गोरिथम में फीड किया जा सकता है।
अगला बयान एक कार्यक्रम टिप्पणी है जो कहती है कि हम प्रतिगमन मॉडल का उपयोग करेंगे और पूर्व निर्धारित नियमितीकरण और लंबो मूल्यों को निर्दिष्ट करेंगे।
मॉडल का निर्माण
इसके बाद, सबसे महत्वपूर्ण कथन आता है और वह मॉडल का निर्माण कर रहा है। यह निम्नलिखित कथन में निर्दिष्ट है -
buildModel 'glm', {
"model_id":"glm_model","training_frame":"allyears2k.hex",
"ignored_columns":[
"DayofMonth","DepTime","CRSDepTime","ArrTime","CRSArrTime","TailNum",
"ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
"TaxiIn","TaxiOut","Cancelled","CancellationCode","Diverted","CarrierDelay",
"WeatherDelay","NASDelay","SecurityDelay","LateAircraftDelay","IsArrDelayed"],
"ignore_const_cols":true,"response_column":"IsDepDelayed","family":"binomial",
"solver":"IRLSM","alpha":[0.5],"lambda":[0.00001],"lambda_search":false,
"standardize":true,"non_negative":false,"score_each_iteration":false,
"max_iterations":-1,"link":"family_default","intercept":true,
"objective_epsilon":0.00001,"beta_epsilon":0.0001,"gradient_epsilon":0.0001,
"prior":-1,"max_active_predictors":-1
}
हम glm का उपयोग करते हैं, जो द्विपद के लिए सेट परिवार प्रकार के साथ एक सामान्यीकृत रैखिक मॉडल सूट है। आप उपरोक्त कथन में इन पर प्रकाश डाल सकते हैं। हमारे मामले में, अपेक्षित आउटपुट द्विआधारी है और यही कारण है कि हम द्विपद प्रकार का उपयोग करते हैं। आप स्वयं द्वारा अन्य मापदंडों की जांच कर सकते हैं; उदाहरण के लिए, अल्फा और लैम्ब्डा को देखें जिन्हें हमने पहले निर्दिष्ट किया था। सभी मापदंडों की व्याख्या के लिए GLM मॉडल प्रलेखन देखें।
अब, इस कथन को चलाएं। निष्पादन के बाद, निम्न आउटपुट उत्पन्न होगा -
निश्चित रूप से, निष्पादन का समय आपकी मशीन पर अलग होगा। अब, इस नमूना कोड का सबसे दिलचस्प हिस्सा आता है।
आउटपुट की जांच
हम केवल उस मॉडल का आउटपुट करते हैं जिसे हमने निम्नलिखित कथन का उपयोग करके बनाया है -
getModel "glm_model"
ध्यान दें कि glm_model मॉडल आईडी है जिसे हमने पिछले बयान में मॉडल का निर्माण करते समय मॉडल_ड पैरामीटर के रूप में निर्दिष्ट किया था। यह हमें कई अलग-अलग मापदंडों के साथ परिणामों का विवरण देने वाला एक विशाल आउटपुट देता है। रिपोर्ट का आंशिक आउटपुट नीचे स्क्रीनशॉट में दिखाया गया है -
जैसा कि आप आउटपुट में देख सकते हैं, यह कहता है कि यह आपके डेटासेट पर सामान्यीकृत रैखिक मॉडलिंग एल्गोरिथ्म को चलाने का परिणाम है।
SCORING HISTORY के ठीक ऊपर, आपको MODEL PARAMETERS टैग दिखाई देता है, इसे विस्तारित करें और आप मॉडल बनाते समय उपयोग किए जाने वाले सभी मापदंडों की सूची देखेंगे। यह नीचे स्क्रीनशॉट में दिखाया गया है।
इसी तरह, प्रत्येक टैग एक विशिष्ट प्रकार का एक विस्तृत आउटपुट प्रदान करता है। विभिन्न प्रकार के आउटपुट का अध्ययन करने के लिए स्वयं विभिन्न टैगों का विस्तार करें।
एक और मॉडल का निर्माण
अगला, हम अपने डेटाफ़्रेम पर एक डीप लर्निंग मॉडल बनाएंगे। नमूना कोड में अगला बयान सिर्फ एक कार्यक्रम टिप्पणी है। निम्नलिखित कथन वास्तव में एक मॉडल बिल्डिंग कमांड है। यह यहाँ दिखाया गया है -
buildModel 'deeplearning', {
"model_id":"deeplearning_model","training_frame":"allyear
s2k.hex","ignored_columns":[
"DepTime","CRSDepTime","ArrTime","CRSArrTime","FlightNum","TailNum",
"ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
"TaxiIn","TaxiOut","Cancelled","CancellationCode","Diverted",
"CarrierDelay","WeatherDelay","NASDelay","SecurityDelay",
"LateAircraftDelay","IsArrDelayed"],
"ignore_const_cols":true,"res ponse_column":"IsDepDelayed",
"activation":"Rectifier","hidden":[200,200],"epochs":"100",
"variable_importances":false,"balance_classes":false,
"checkpoint":"","use_all_factor_levels":true,
"train_samples_per_iteration":-2,"adaptive_rate":true,
"input_dropout_ratio":0,"l1":0,"l2":0,"loss":"Automatic","score_interval":5,
"score_training_samples":10000,"score_duty_cycle":0.1,"autoencoder":false,
"overwrite_with_best_model":true,"target_ratio_comm_to_comp":0.02,
"seed":6765686131094811000,"rho":0.99,"epsilon":1e-8,"max_w2":"Infinity",
"initial_weight_distribution":"UniformAdaptive","classification_stop":0,
"diagnostics":true,"fast_mode":true,"force_load_balance":true,
"single_node_mode":false,"shuffle_training_data":false,"missing_values_handling":
"MeanImputation","quiet_mode":false,"sparse":false,"col_major":false,
"average_activation":0,"sparsity_beta":0,"max_categorical_features":2147483647,
"reproducible":false,"export_weights_and_biases":false
}
जैसा कि आप उपरोक्त कोड में देख सकते हैं, हम मॉडल के निर्माण के लिए कई मापदंडों के साथ deeplearning निर्दिष्ट करते हैं, जो कि deeplearning मॉडल के दस्तावेज़ में निर्दिष्ट उचित मानों के लिए सेट है। जब आप यह कथन चलाते हैं, तो GLM मॉडल बिल्डिंग की तुलना में अधिक समय लगेगा। मॉडल का निर्माण पूरा होने पर आपको निम्नलिखित आउटपुट दिखाई देगा, भले ही अलग-अलग समय के साथ।
डीप लर्निंग मॉडल आउटपुट की जांच
यह उस प्रकार के आउटपुट को उत्पन्न करता है, जिसे निम्नलिखित कथन का उपयोग करके जांच की जा सकती है जैसा कि पहले वाले मामले में था।
getModel "deeplearning_model"
हम आरओसी वक्र उत्पादन पर विचार करेंगे जैसा कि त्वरित संदर्भ के लिए नीचे दिखाया गया है।
पहले के मामले की तरह, विभिन्न टैब का विस्तार करें और विभिन्न आउटपुट का अध्ययन करें।
मॉडल सहेजना
आपके द्वारा विभिन्न मॉडलों के आउटपुट का अध्ययन करने के बाद, आप अपने उत्पादन वातावरण में से एक का उपयोग करने का निर्णय लेते हैं। H20 आपको इस मॉडल को POJO (प्लेन ओल्ड जावा ऑब्जेक्ट) के रूप में सहेजने की अनुमति देता है।
आउटपुट में अंतिम टैग PREVIEW POJO का विस्तार करें और आपको अपने ठीक-ठीक मॉडल के लिए जावा कोड दिखाई देगा। अपने उत्पादन परिवेश में इसका उपयोग करें।
आगे, हम H2O की एक बहुत ही रोमांचक विशेषता के बारे में जानेंगे। हम सीखेंगे कि अपने प्रदर्शन के आधार पर विभिन्न एल्गोरिदम का परीक्षण और रैंक करने के लिए ऑटोएमएल का उपयोग कैसे करें।