अपाचे स्पार्क - परिचय

उद्योग अपने डेटा सेट का विश्लेषण करने के लिए Hadoop का बड़े पैमाने पर उपयोग कर रहे हैं। कारण यह है कि Hadoop फ्रेमवर्क एक सरल प्रोग्रामिंग मॉडल (MapReduce) पर आधारित है और यह एक कंप्यूटिंग समाधान को सक्षम करता है जो स्केलेबल, लचीला, दोष-सहिष्णु और लागत प्रभावी है। यहां, मुख्य चिंता यह है कि प्रश्नों के बीच प्रतीक्षा समय और कार्यक्रम को चलाने के लिए प्रतीक्षा समय के बीच बड़े डेटासेट को संसाधित करने में गति बनाए रखी जाए।

स्पैडो को अपाचे सॉफ्टवेयर फाउंडेशन द्वारा हडोप कम्प्यूट कम्प्यूटिंग सॉफ्टवेयर प्रक्रिया में तेजी लाने के लिए पेश किया गया था।

एक आम धारणा के विपरीत, Spark is not a modified version of Hadoopऔर, वास्तव में, Hadoop पर निर्भर नहीं है क्योंकि इसका अपना क्लस्टर प्रबंधन है। हाडोप स्पार्क को लागू करने के तरीकों में से एक है।

स्पार्क दो तरीकों से Hadoop का उपयोग करता है - एक है storage और दूसरा है processing। चूंकि स्पार्क की अपनी क्लस्टर प्रबंधन संगणना है, इसलिए यह केवल भंडारण उद्देश्य के लिए Hadoop का उपयोग करता है।

अपाचे स्पार्क

अपाचे स्पार्क एक लाइटनिंग-फास्ट क्लस्टर कंप्यूटिंग तकनीक है, जिसे तेज गणना के लिए डिज़ाइन किया गया है। यह Hadoop MapReduce पर आधारित है और यह MapReduce मॉडल को कुशलता से अधिक प्रकार की गणनाओं के लिए उपयोग करने के लिए विस्तारित करता है, जिसमें इंटरैक्टिव क्वेरी और स्ट्रीम प्रोसेसिंग शामिल है। स्पार्क की मुख्य विशेषता इसकी हैin-memory cluster computing जो किसी एप्लिकेशन की प्रोसेसिंग स्पीड को बढ़ाता है।

स्पार्क को कई प्रकार के वर्कलोड जैसे कि बैच एप्लिकेशन, पुनरावृत्त एल्गोरिदम, इंटरएक्टिव क्वेरी और स्ट्रीमिंग को कवर करने के लिए डिज़ाइन किया गया है। संबंधित प्रणाली में इन सभी कार्यभार का समर्थन करने के अलावा, यह अलग-अलग उपकरणों को बनाए रखने के प्रबंधन के बोझ को कम करता है।

अपाचे स्पार्क का विकास

स्पार्क होडोप की उप परियोजना में से एक है जो 2009 में माटी ज़हरिया द्वारा यूसी बर्कले के एएमपीलैब में विकसित की गई थी। यह 2010 में बीएसडी लाइसेंस के तहत ओपन सोर्ड था। यह 2013 में अपाचे सॉफ्टवेयर फाउंडेशन को दान कर दिया गया था, और अब अपाचे स्पार्क फरवरी 2014 से शीर्ष स्तर की अपाचे परियोजना बन गई है।

अपाचे स्पार्क की विशेषताएं

अपाचे स्पार्क में निम्नलिखित विशेषताएं हैं।

  • Speed- स्पार्क हडोप क्लस्टर में एक एप्लिकेशन को चलाने में मदद करता है, मेमोरी में 100 गुना तेज और डिस्क पर चलने पर 10 गुना तेज। डिस्क पर रीड / राइट ऑपरेशन की संख्या कम करके यह संभव है। यह इंटरमीडिएट प्रोसेसिंग डाटा को मेमोरी में स्टोर करता है।

  • Supports multiple languages- स्पार्क जावा, स्काला, या पायथन में निर्मित एपीआई प्रदान करता है। इसलिए, आप विभिन्न भाषाओं में एप्लिकेशन लिख सकते हैं। स्पार्क इंटरएक्टिव क्वेरी के लिए 80 उच्च-स्तरीय ऑपरेटरों के साथ आता है।

  • Advanced Analytics- स्पार्क न केवल 'मैप' और 'कम' का समर्थन करता है। यह SQL क्वेरी, स्ट्रीमिंग डेटा, मशीन लर्निंग (एमएल) और ग्राफ़ एल्गोरिदम का भी समर्थन करता है।

स्पार्क बिल्ट पर बनाया गया

निम्नलिखित आरेख तीन तरीकों को दर्शाता है कि स्पार्क को Hadoop घटकों के साथ कैसे बनाया जा सकता है।

नीचे बताया गया स्पार्क तैनाती के तीन तरीके हैं।

  • Standalone- स्पार्क स्टैंडअलोन तैनाती का मतलब है कि स्पार्क एचडीएफएस (हडोप डिस्ट्रीब्यूटेड फाइल सिस्टम) के शीर्ष पर जगह रखता है और स्पष्ट रूप से एचडीएफएस के लिए जगह आवंटित की जाती है। यहाँ, स्पार्क और MapReduce क्लस्टर पर सभी स्पार्क नौकरियों को कवर करने के लिए कंधे से कंधा मिलाकर चलेंगे।

  • Hadoop Yarn- Hadoop यार्न की तैनाती का मतलब है, बस, स्पार्क यार्न पर बिना किसी पूर्व-इंस्टॉलेशन या रूट एक्सेस के आवश्यक है। यह स्पार्क को Hadoop इकोसिस्टम या Hadoop स्टैक में एकीकृत करने में मदद करता है। यह अन्य घटकों को स्टैक के शीर्ष पर चलने की अनुमति देता है।

  • Spark in MapReduce (SIMR)- MapReduce में स्पार्क का उपयोग स्टैंडअलोन तैनाती के अलावा स्पार्क जॉब लॉन्च करने के लिए किया जाता है। SIMR के साथ, उपयोगकर्ता स्पार्क शुरू कर सकता है और बिना किसी प्रशासनिक पहुंच के इसके शेल का उपयोग कर सकता है।

स्पार्क के घटक

निम्नलिखित दृष्टांत स्पार्क के विभिन्न घटकों को दर्शाते हैं।

अपाचे स्पार्क कोर

स्पार्क कोर स्पार्क प्लेटफॉर्म के लिए अंतर्निहित सामान्य निष्पादन इंजन है जो अन्य सभी कार्यक्षमता पर बनाया गया है। यह बाहरी मेमोरी सिस्टम में इन-मेमोरी कंप्यूटिंग और रेफरेंसिंग डेटासेट प्रदान करता है।

स्पार्क एसक्यूएल

स्पार्क एसक्यूएल स्पार्क कोर के शीर्ष पर एक घटक है जो स्कीमाआरडीडी नामक एक नया डेटा एब्स्ट्रैक्शन पेश करता है, जो संरचित और अर्ध-संरचित डेटा के लिए समर्थन प्रदान करता है।

स्पार्क स्ट्रीमिंग

स्पार्क स्ट्रीमिंग, स्ट्रीमिंग एनालिटिक्स प्रदर्शन करने के लिए स्पार्क कोर की तीव्र शेड्यूलिंग क्षमता का लाभ उठाती है। यह मिनी-बैचों में डेटा को सम्मिलित करता है और डेटा के उन मिनी-बैचों पर आरडीडी (रेजिलिएंट डिस्ट्रीब्यूटेड डेटासेट्स) रूपांतरण करता है।

MLlib (मशीन लर्निंग लाइब्रेरी)

MLlib वितरित मेमोरी-आधारित स्पार्क वास्तुकला के कारण स्पार्क के ऊपर एक वितरित मशीन लर्निंग फ्रेमवर्क है। यह बेंचमार्क के अनुसार, एमएलबी डेवलपर्स द्वारा अल्टरनेटिंग लिस्ट स्क्वायर (एएलएस) कार्यान्वयन के खिलाफ किया जाता है। स्पार्क MLlib Hadoop डिस्क-आधारित संस्करण के रूप में नौ गुना तेज हैApache Mahout (इससे पहले कि महावत ने स्पार्क इंटरफ़ेस प्राप्त किया)।

GraphX

ग्राफएक्स स्पार्क के शीर्ष पर एक वितरित ग्राफ-प्रोसेसिंग ढांचा है। यह ग्राफ संगणना को व्यक्त करने के लिए एक एपीआई प्रदान करता है जो उपयोगकर्ता-परिभाषित रेखांकन को Pregel abstraction API का उपयोग करके मॉडल कर सकता है। यह इस अमूर्त के लिए एक अनुकूलित रनटाइम भी प्रदान करता है।