छत्ता - परिचय

'बिग डेटा' शब्द का इस्तेमाल बड़े डेटासेट के संग्रह के लिए किया जाता है जिसमें भारी मात्रा, उच्च वेग और विभिन्न प्रकार के डेटा शामिल हैं जो दिन-प्रतिदिन बढ़ रहे हैं। पारंपरिक डेटा प्रबंधन प्रणालियों का उपयोग करना, बिग डेटा को संसाधित करना मुश्किल है। इसलिए, अपाचे सॉफ्टवेयर फाउंडेशन ने बिग डेटा प्रबंधन और प्रसंस्करण चुनौतियों को हल करने के लिए Hadoop नामक एक रूपरेखा पेश की।

Hadoop

Hadoop एक वितरित वातावरण में बिग डेटा को स्टोर और प्रोसेस करने के लिए एक ओपन-सोर्स फ्रेमवर्क है। इसमें दो मॉड्यूल शामिल हैं, एक है MapReduce और दूसरा है Hadoop Distributed File System (HDFS)।

  • MapReduce: यह कमोडिटी हार्डवेयर के बड़े समूहों पर संरचित, अर्ध-संरचित और असंरचित डेटा की बड़ी मात्रा में प्रसंस्करण के लिए एक समानांतर प्रोग्रामिंग मॉडल है।

  • HDFS:Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम, Hadoop फ्रेमवर्क का एक हिस्सा है, जो डेटासेट को स्टोर और प्रोसेस करने के लिए उपयोग किया जाता है। यह कमोडिटी हार्डवेयर पर चलने के लिए एक फॉल्ट-टॉलरेंट फाइल सिस्टम प्रदान करता है।

Hadoop पारिस्थितिकी तंत्र में Sqoop, Pig, और Hive जैसे विभिन्न उप-परियोजनाएँ (उपकरण) शामिल हैं जिनका उपयोग Hadoop मॉड्यूल की सहायता के लिए किया जाता है।

  • Sqoop: इसका उपयोग HDFS और RDBMS के बीच और बाहर डेटा आयात और निर्यात करने के लिए किया जाता है।

  • Pig: यह एक प्रक्रियात्मक भाषा मंच है जिसका उपयोग MapReduce के संचालन के लिए एक स्क्रिप्ट विकसित करने के लिए किया जाता है।

  • Hive: यह MapReduce संचालन करने के लिए SQL प्रकार स्क्रिप्ट विकसित करने के लिए उपयोग किया जाने वाला एक प्लेटफ़ॉर्म है।

Note: MapReduce संचालन को निष्पादित करने के विभिन्न तरीके हैं:

  • संरचित, अर्ध-संरचित और असंरचित डेटा के लिए जावा मेप्रेड कार्यक्रम का उपयोग करते हुए पारंपरिक दृष्टिकोण।
  • सुअर का उपयोग करके संरचित और अर्ध संरचित डेटा को संसाधित करने के लिए MapReduce के लिए स्क्रिप्टिंग दृष्टिकोण।
  • Hive का उपयोग करके संरचित डेटा को संसाधित करने के लिए MapReduce के लिए Hive Query Language (HiveQL या HQL)।

हाइव क्या है

Hive, Hadoop में संरचित डेटा को प्रोसेस करने के लिए एक डेटा वेयरहाउस इन्फ्रास्ट्रक्चर टूल है। यह बिग डेटा को सारांशित करने के लिए हडोप के शीर्ष पर रहता है, और क्वेरी करना और विश्लेषण करना आसान बनाता है।

शुरुआत में हाइव फेसबुक द्वारा विकसित किया गया था, बाद में अपाचे सॉफ्टवेयर फाउंडेशन ने इसे ले लिया और इसे अपाचे हाइव नाम के तहत एक खुले स्रोत के रूप में विकसित किया। इसका उपयोग विभिन्न कंपनियों द्वारा किया जाता है। उदाहरण के लिए, Amazon इसका उपयोग Amazon Elastic MapReduce में करता है।

छत्ता नहीं है

  • एक संबंधपरक डेटाबेस
  • OnLine लेनदेन प्रसंस्करण (OLTP) के लिए एक डिजाइन
  • वास्तविक समय के प्रश्नों और पंक्ति-स्तरीय अपडेट के लिए एक भाषा

छत्ता की विशेषताएं

  • यह एक डेटाबेस में स्कीमा और HDFS में संसाधित डेटा संग्रहीत करता है।
  • इसे OLAP के लिए डिज़ाइन किया गया है।
  • यह HiveQL या HQL नामक क्वेरी के लिए SQL प्रकार की भाषा प्रदान करता है।
  • यह परिचित, तेज, स्केलेबल और एक्स्टेंसिबल है।

हाइव का आर्किटेक्चर

निम्न घटक आरेख में हाइव की वास्तुकला को दर्शाया गया है:

इस घटक आरेख में विभिन्न इकाइयाँ हैं। निम्न तालिका प्रत्येक इकाई का वर्णन करती है:

इकाई का नाम ऑपरेशन
प्रयोक्ता इंटरफ़ेस हाइव एक डेटा वेयरहाउस इन्फ्रास्ट्रक्चर सॉफ्टवेयर है जो उपयोगकर्ता और एचडीएफएस के बीच संपर्क बना सकता है। हाइव का समर्थन करने वाले उपयोगकर्ता इंटरफ़ेस हाइव वेब यूआई, हाइव कमांड लाइन और हाइव एचडी इनसाइट (विंडोज सर्वर में) हैं।
मेटा स्टोर हाइव संबंधित डेटाबेस सर्वर को टेबल, डेटाबेस, कॉलम के टेबल में मेटाडेटा, उनके डेटा प्रकार और एचडीएफएस मैपिंग को स्टोर करने के लिए चुनता है।
HiveQL प्रक्रिया इंजन HastQL Metastore पर स्कीमा जानकारी पर क्वेरी के लिए SQL के समान है। यह MapReduce कार्यक्रम के लिए पारंपरिक दृष्टिकोण के प्रतिस्थापन में से एक है। Java में MapReduce प्रोग्राम लिखने के बजाय, हम MapReduce जॉब के लिए एक क्वेरी लिख सकते हैं और इसे प्रोसेस कर सकते हैं।
निष्पादन इंजन HiveQL प्रक्रिया इंजन और MapReduce का संयोजन हिस्सा हाइव निष्पादन इंजन है। निष्पादन इंजन क्वेरी को संसाधित करता है और MapReduce परिणामों के समान परिणाम उत्पन्न करता है। यह MapReduce के स्वाद का उपयोग करता है।
HDFS या HBASE Hadoop वितरित फ़ाइल सिस्टम या HBASE फ़ाइल सिस्टम में डेटा स्टोर करने के लिए डेटा स्टोरेज तकनीक है।

छत्ता का कार्य

निम्न आरेख में Hive और Hadoop के बीच के वर्कफ़्लो को दर्शाया गया है।

निम्न तालिका परिभाषित करती है कि Hive कैसे Hadoop ढांचे के साथ बातचीत करता है:

चरण संख्या ऑपरेशन
1 Execute Query

Hive इंटरफ़ेस जैसे कमांड लाइन या वेब UI, ड्राइवर (किसी भी डेटाबेस ड्राइवर जैसे JDBC, ODBC, आदि) को निष्पादित करने के लिए क्वेरी भेजता है।

2 Get Plan

ड्राइवर क्वेरी कंपाइलर की मदद लेता है जो सिंटैक्स और क्वेरी प्लान या क्वेरी की आवश्यकता की जांच करने के लिए क्वेरी को पार्स करता है।

3 Get Metadata

संकलक मेटाडाटा (किसी भी डेटाबेस) को मेटाडेटा अनुरोध भेजता है।

4 Send Metadata

मेटास्टोर कंपाइलर की प्रतिक्रिया के रूप में मेटाडेटा भेजता है।

5 Send Plan

संकलक आवश्यकता की जांच करता है और चालक को योजना को भेजता है। यहाँ तक, एक क्वेरी का पार्सिंग और संकलन पूरा हो गया है।

6 Execute Plan

ड्राइवर निष्पादन योजना को निष्पादन इंजन में भेजता है।

7 Execute Job

आंतरिक रूप से, निष्पादन नौकरी की प्रक्रिया एक MapReduce नौकरी है। निष्पादन इंजन जॉबट्रैक को नौकरी भेजता है, जो कि नाम नोड में है और यह इस कार्य को टास्कट्रैक को सौंपता है, जो डेटा नोड में है। यहाँ, क्वेरी MapReduce जॉब को निष्पादित करती है।

7.1 Metadata Ops

इस बीच, निष्पादन इंजन मेटास्टोर के साथ मेटाडेटा संचालन को निष्पादित कर सकता है।

8 Fetch Result

निष्पादन इंजन डेटा नोड्स से परिणाम प्राप्त करता है।

9 Send Results

निष्पादन इंजन चालक को उन परिणामी मूल्यों को भेजता है।

10 Send Results

ड्राइवर हाइव इंटरफेस पर परिणाम भेजता है।