डायनॉम्बीडी - मैपरेड्यूस

अमेज़ॅन का इलास्टिक मैपरेड (EMR) आपको बड़े डेटा को जल्दी और कुशलता से संसाधित करने की अनुमति देता है। EMR EC2 उदाहरणों पर Apache Hadoop चलाता है, लेकिन प्रक्रिया को सरल करता है। आप Apache Hive से क्वेरी मैप को कम करते हुए HiveQL के माध्यम से जॉब फ्लो का उपयोग करते हैं , एक क्वेरी भाषा जो एसक्यूएल जैसी है। अपाचे हाइव प्रश्नों और आपके अनुप्रयोगों को अनुकूलित करने का एक तरीका है।

आप नौकरी के प्रवाह को लॉन्च करने के लिए प्रबंधन कंसोल, ईएमआर सीएलआई, एक एपीआई या एसडीके के ईएमआर टैब का उपयोग कर सकते हैं। आपके पास हाइव को अंतःक्रियात्मक रूप से चलाने या स्क्रिप्ट का उपयोग करने का विकल्प भी है।

EMR पढ़ने / लिखने के संचालन से थ्रूपुट की खपत पर असर पड़ता है, हालांकि, बड़े अनुरोधों में, यह बैकऑफ़ एल्गोरिथ्म के संरक्षण के साथ रिट्रीट करता है। इसके अलावा, अन्य कार्यों और कार्यों के साथ ईएमआर समवर्ती चलाने से थ्रॉटलिंग हो सकता है।

DynamoDB / EMR एकीकरण बाइनरी और बाइनरी सेट विशेषताओं का समर्थन नहीं करता है।

डायनेमोडीबी / ईएमआर एकीकरण पूर्वापेक्षाएँ

EMR का उपयोग करने से पहले आवश्यक वस्तुओं की इस चेकलिस्ट की समीक्षा करें -

  • AWS खाता
  • EMR परिचालनों में नियोजित एक ही खाते के अंतर्गत एक आबादी वाली तालिका
  • डायनमोडीबी कनेक्टिविटी के साथ एक कस्टम हाइव संस्करण
  • डायनेमोडीबी कनेक्टिविटी सपोर्ट
  • एक S3 बाल्टी (वैकल्पिक)
  • एक SSH ग्राहक (वैकल्पिक)
  • EC2 कुंजी जोड़ी (वैकल्पिक)

हाइव सेटअप

ईएमआर का उपयोग करने से पहले, हाइव को इंटरैक्टिव मोड में चलाने के लिए एक महत्वपूर्ण जोड़ी बनाएं। प्रमुख जोड़ी ईसी 2 इंस्टेंस और जॉब फ्लो के मास्टर नोड्स से कनेक्शन की अनुमति देती है।

आप बाद के चरणों का पालन करके यह प्रदर्शन कर सकते हैं -

  • प्रबंधन कंसोल में लॉग इन करें, और EC2 कंसोल पर स्थित खोलें https://console.aws.amazon.com/ec2/

  • कंसोल के ऊपरी, दाएँ हाथ के भाग में एक क्षेत्र का चयन करें। सुनिश्चित करें कि क्षेत्र डायनेमोडीबी क्षेत्र से मेल खाता है।

  • नेविगेशन फलक में, का चयन करें Key Pairs

  • चुनते हैं Create Key Pair

  • में Key Pair Name फ़ील्ड, एक नाम दर्ज करें और चुनें Create

  • परिणामी निजी कुंजी फ़ाइल डाउनलोड करें जो निम्न प्रारूप का उपयोग करती है: filename.pem।

Note - आप प्रमुख जोड़ी के बिना EC2 उदाहरणों से कनेक्ट नहीं कर सकते।

हाइव क्लस्टर

हाइव चलाने के लिए हाइव-इनेबल क्लस्टर बनाएं। यह Hive-to-DynamoDB कनेक्शन के लिए अनुप्रयोगों और बुनियादी ढांचे के आवश्यक वातावरण का निर्माण करता है।

आप निम्न चरणों का उपयोग करके इस कार्य को कर सकते हैं -

  • EMR कंसोल पर पहुँचें।

  • चुनते हैं Create Cluster

  • निर्माण स्क्रीन में, क्लस्टर के लिए एक वर्णनात्मक नाम के साथ क्लस्टर कॉन्फ़िगरेशन सेट करें, चुनें Yes समाप्ति सुरक्षा और जाँच के लिए Enabled लॉगिंग के लिए, एक S3 गंतव्य के लिए log folder S3 location, तथा Enabled डिबगिंग के लिए।

  • सॉफ़्टवेयर कॉन्फ़िगरेशन स्क्रीन में, फ़ील्ड होल्ड करना सुनिश्चित करें Amazon Hadoop वितरण के लिए, एएमआई संस्करण के लिए नवीनतम संस्करण, इंस्टाल-हाइव के लिए एप्लिकेशन के लिए एक डिफ़ॉल्ट हाइव संस्करण, और इंस्टाल-पिग के लिए एप्लिकेशन के लिए एक डिफ़ॉल्ट पिग संस्करण है।

  • हार्डवेयर कॉन्फ़िगरेशन स्क्रीन में, फ़ील्ड को सुनिश्चित करें Launch into EC2-Classic नेटवर्क के लिए, No Preference EC2 उपलब्धता क्षेत्र के लिए, मास्टर-अमेज़ॅन EC2 इंस्टेंस प्रकार के लिए डिफ़ॉल्ट, अनुरोध स्पॉट इंस्टेंसेस के लिए कोई चेक नहीं, कोर-अमेज़ॅन EC2 इंस्टेंस प्रकार के लिए डिफ़ॉल्ट 2 काउंट के लिए, रिक्वेस्ट स्पॉट इंस्टेंस के लिए कोई चेक नहीं, टास्क-अमेज़ॅन EC2 इंस्टेंस टाइप के लिए डिफ़ॉल्ट, 0 काउंट के लिए, और अनुरोध स्पॉट इंस्टेंस के लिए कोई जांच नहीं।

क्लस्टर विफलता को रोकने के लिए पर्याप्त क्षमता प्रदान करने वाली सीमा निर्धारित करना सुनिश्चित करें।

  • सुरक्षा और पहुँच स्क्रीन में, सुनिश्चित करें कि फ़ील्ड EC2 कुंजी जोड़ी में आपकी मुख्य जोड़ी रखती हैं, No other IAM users IAM उपयोगकर्ता पहुंच में, और Proceed without roles IAM भूमिका में।

  • बूटस्ट्रैप एक्शन स्क्रीन की समीक्षा करें, लेकिन इसे संशोधित न करें।

  • सेटिंग्स की समीक्षा करें, और चुनें Create Cluster जब समाप्त हो जाए।

Summary क्लस्टर की शुरुआत में फलक दिखाई देता है।

SSH सत्र को सक्रिय करें

आपको मास्टर नोड से कनेक्ट करने और सीएलआई संचालन निष्पादित करने के लिए एक सक्रिय एसएसएच सत्र की आवश्यकता है। EMR कंसोल में क्लस्टर का चयन करके मास्टर नोड का पता लगाएँ। यह मास्टर नोड को सूचीबद्ध करता हैMaster Public DNS Name

यदि आपके पास नहीं है तो PuTTY स्थापित करें। इसके बाद PuTTYgen लॉन्च करें और चुनेंLoad। अपनी PEM फ़ाइल चुनें, और इसे खोलें। PuTTYgen आपको सफल आयात की सूचना देगा। चुनते हैंSave private key PuTTY निजी कुंजी प्रारूप (PPK) में बचाने के लिए, और चुनें Yesपास वाक्यांश के बिना बचत के लिए। फिर पुटी कुंजी के लिए एक नाम दर्ज करें, हिट करेंSave, और PuTTYgen को बंद करें।

पहले शुरू करने के लिए मास्टर नोड के साथ संबंध बनाने के लिए PuTTY का उपयोग करें। चुनेंSessionश्रेणी सूची से होस्ट नाम फ़ील्ड के भीतर hasoop @ DNS दर्ज करें। विस्तारConnection > SSH श्रेणी सूची में, और चुनें Auth। नियंत्रण विकल्प स्क्रीन में, का चयन करेंBrowseप्रमाणीकरण के लिए निजी कुंजी फ़ाइल के लिए। फिर अपनी निजी कुंजी फ़ाइल चुनें और इसे खोलें। चुनते हैंYes सुरक्षा चेतावनी पॉप-अप के लिए।

जब मास्टर नोड से जुड़ा होता है, तो एक Hadoop कमांड प्रॉम्प्ट दिखाई देता है, जिसका अर्थ है कि आप एक इंटरैक्टिव हाइव सत्र शुरू कर सकते हैं।

छत्ता तालिका

Hive एक डेटा वेयरहाउस टूल के रूप में कार्य करता है जो HiveQL का उपयोग करते हुए EMR क्लस्टर्स पर प्रश्नों की अनुमति देता है । पिछले सेटअप आपको काम करने का संकेत देते हैं। केवल "हाइव" दर्ज करके और फिर अपनी इच्छा के अनुसार किसी भी आदेश को दर्ज करके हाइव कमांड को अंतःक्रियात्मक रूप से चलाएं। के बारे में अधिक जानकारी के लिए हमारी हाइव ट्यूटोरियल देखें हाइव ।