अमेज़ॅन वेब सेवाएँ - इलास्टिक मैपड्राइड

Amazon Elastic MapReduce (EMR) एक वेब सेवा है जो अपाचे हडॉप, अपाचे स्पार्क और प्रेस्टो जैसे डेटा प्रोसेसिंग फ्रेमवर्क को चलाने के लिए एक आसान, लागत प्रभावी और सुरक्षित तरीके से प्रबंधित ढांचा प्रदान करती है।

इसका उपयोग डेटा विश्लेषण, वेब इंडेक्सिंग, डेटा वेयरहाउसिंग, वित्तीय विश्लेषण, वैज्ञानिक सिमुलेशन, आदि के लिए किया जाता है।

Amazon EMR कैसे सेट करें?

Amazon EMR सेट करने के लिए इन चरणों का पालन करें -

Step 1 - AWS खाते में साइन इन करें और प्रबंधन कंसोल पर अमेज़न EMR चुनें।

Step 2- क्लस्टर लॉग और आउटपुट डेटा के लिए अमेज़न S3 बाल्टी बनाएँ। (प्रक्रिया के बारे में विस्तार से बताया गया है अमेज़न S3 अनुभाग)

Step 3 - Amazon EMR क्लस्टर लॉन्च करें।

क्लस्टर बनाने और इसे EMR पर लॉन्च करने के चरण निम्नलिखित हैं।

  • Amazon EMR कंसोल खोलने के लिए इस लिंक का उपयोग करें - https://console.aws.amazon.com/elasticmapreduce/home

  • क्लस्टर बनाएँ का चयन करें और क्लस्टर कॉन्फ़िगरेशन पृष्ठ पर आवश्यक विवरण प्रदान करें।

  • डिफ़ॉल्ट रूप में टैग अनुभाग विकल्प छोड़ें और आगे बढ़ें।

  • सॉफ़्टवेयर कॉन्फ़िगरेशन अनुभाग पर, डिफ़ॉल्ट के रूप में विकल्पों को स्तर दें।

  • फ़ाइल सिस्टम कॉन्फ़िगरेशन अनुभाग पर, डिफ़ॉल्ट रूप से सेट किए गए EMRFS के लिए विकल्पों को छोड़ दें। EMRFS HDFS का एक कार्यान्वयन है, यह अमेज़न EMR समूहों को अमेज़न S3 पर डेटा स्टोर करने की अनुमति देता है।

  • हार्डवेयर कॉन्फ़िगरेशन अनुभाग पर, EC2 उदाहरण प्रकार फ़ील्ड में m3.xlarge का चयन करें और अन्य सेटिंग्स को डिफ़ॉल्ट के रूप में छोड़ दें। नेक्स्ट बटन पर क्लिक करें।

  • EC2 कुंजी जोड़ी के लिए सुरक्षा और पहुंच अनुभाग पर, EC2 कुंजी जोड़ी फ़ील्ड में सूची से जोड़े का चयन करें और अन्य सेटिंग्स को डिफ़ॉल्ट के रूप में छोड़ दें।

  • बूटस्ट्रैप एक्शन सेक्शन पर, डिफ़ॉल्ट रूप से सेट किए गए फ़ील्ड को छोड़ें और ऐड बटन पर क्लिक करें। बूटस्ट्रैप क्रियाएं स्क्रिप्ट्स हैं जो सेटअप के दौरान निष्पादित की जाती हैं, इससे पहले कि Hadoop प्रत्येक क्लस्टर नोड पर प्रारंभ हो।

  • चरण अनुभाग पर, डिफ़ॉल्ट के रूप में सेटिंग्स को छोड़ दें और आगे बढ़ें।

  • क्लस्टर बनाएँ बटन पर क्लिक करें और क्लस्टर विवरण पृष्ठ खुलता है। यह वह जगह है जहां हमें हाइव स्क्रिप्ट को क्लस्टर चरण के रूप में चलाना चाहिए और डेटा को क्वेरी करने के लिए ह्यू वेब इंटरफ़ेस का उपयोग करना चाहिए।

Step 4 - निम्न चरणों का उपयोग करके हाइव स्क्रिप्ट चलाएँ।

  • अमेज़ॅन ईएमआर कंसोल खोलें और वांछित क्लस्टर चुनें।

  • चरण अनुभाग पर जाएं और इसका विस्तार करें। इसके बाद Add स्टेप बटन पर क्लिक करें।

  • ऐड स्टेप डायलॉग बॉक्स खुलता है। आवश्यक फ़ील्ड भरें, फिर ऐड बटन पर क्लिक करें।

  • हाइव स्क्रिप्ट के आउटपुट को देखने के लिए, निम्न चरणों का उपयोग करें -

    • अमेज़ॅन S3 कंसोल खोलें और आउटपुट डेटा के लिए उपयोग किए गए S3 बाल्टी का चयन करें।

    • आउटपुट फ़ोल्डर का चयन करें।

    • क्वेरी परिणामों को एक अलग फ़ोल्डर में लिखती है। चुनते हैंos_requests

    • आउटपुट एक पाठ फ़ाइल में संग्रहीत होता है। इस फाइल को डाउनलोड किया जा सकता है।

Amazon EMR के फायदे

अमेज़न EMR के लाभ निम्नलिखित हैं -

  • Easy to use - अमेज़ॅन ईएमआर का उपयोग करना आसान है, अर्थात क्लस्टर, हडोप कॉन्फ़िगरेशन, नोड प्रोविजनिंग आदि को स्थापित करना आसान है।

  • Reliable - यह इस अर्थ में विश्वसनीय है कि यह विफल कार्यों से पीछे हट जाता है और स्वचालित रूप से खराब प्रदर्शन वाले उदाहरणों को बदल देता है।

  • Elastic- अमेज़ॅन ईएमआर किसी भी पैमाने पर डेटा को संसाधित करने के लिए बड़ी मात्रा में उदाहरणों की गणना करने की अनुमति देता है। यह आसानी से बढ़ जाती है या उदाहरणों की संख्या कम हो जाती है।

  • Secure - यह स्वचालित रूप से अमेज़ॅन EC2 फ़ायरवॉल सेटिंग्स को कॉन्फ़िगर करता है, इंस्टेंसेस के लिए नेटवर्क एक्सेस को नियंत्रित करता है, अमेज़ॅन वीपीसी में क्लस्टर लॉन्च करता है, आदि।

  • Flexible- यह हर उदाहरण के क्लस्टर और रूट एक्सेस पर पूर्ण नियंत्रण की अनुमति देता है। यह अतिरिक्त अनुप्रयोगों की स्थापना की भी अनुमति देता है और आवश्यकता के अनुसार आपके क्लस्टर को अनुकूलित करता है।

  • Cost-efficient- इसकी कीमत का अनुमान लगाना आसान है। यह इस्तेमाल किए गए हर उदाहरण के लिए प्रति घंटा चार्ज करता है।