अपाचे सुअर - अवलोकन

अपाचे सुअर क्या है?

अपाचे सुअर MapReduce पर एक अमूर्त है। यह एक उपकरण / मंच है जिसका उपयोग डेटा के बड़े सेटों का विश्लेषण करने के लिए किया जाता है जो डेटा प्रवाह के रूप में उनका प्रतिनिधित्व करते हैं। सुअर आमतौर पर के साथ प्रयोग किया जाता हैHadoop; हम Apache Pig का उपयोग करके Hadoop में सभी डेटा हेरफेर ऑपरेशन कर सकते हैं।

डेटा विश्लेषण कार्यक्रमों को लिखने के लिए, पिग को एक उच्च-स्तरीय भाषा के रूप में जाना जाता है Pig Latin। यह भाषा विभिन्न ऑपरेटरों को प्रदान करती है, जिनके उपयोग से प्रोग्रामर डेटा पढ़ने, लिखने और प्रसंस्करण के लिए अपने स्वयं के कार्य विकसित कर सकते हैं।

डेटा का उपयोग करने का विश्लेषण करने के लिए Apache Pig, प्रोग्रामर्स को सुअर लैटिन भाषा का उपयोग करके स्क्रिप्ट लिखने की आवश्यकता है। इन सभी लिपियों को आंतरिक रूप से मानचित्र और कार्यों को कम करने के लिए परिवर्तित किया गया है। अपाचे सुअर के रूप में जाना जाता है एक घटक हैPig Engine जो कि पिग लैटिन लिपियों को इनपुट के रूप में स्वीकार करता है और उन लिपियों को MapReduce नौकरियों में परिवर्तित करता है।

हमें अपाचे सुअर की आवश्यकता क्यों है?

प्रोग्रामर जो जावा में बहुत अच्छे नहीं हैं, वे आम तौर पर हडोप के साथ काम करने के लिए संघर्ष करते थे, खासकर किसी भी MapReduce कार्यों को करते समय। ऐसे सभी प्रोग्रामर के लिए Apache Pig एक वरदान है।

  • का उपयोग करते हुए Pig Latin, प्रोग्रामर जावा में जटिल कोड टाइप किए बिना आसानी से MapReduce कार्य कर सकते हैं।

  • अपाचे सुअर का उपयोग करता है multi-query approach, जिससे कोड की लंबाई कम हो जाती है। उदाहरण के लिए, एक ऑपरेशन जिसमें आपको जावा में कोड (एलओसी) की 200 लाइनें टाइप करने की आवश्यकता होती है, अपाचे पिग में केवल 10 एलओसी से कम टाइप करके आसानी से किया जा सकता है। अंततः Apache Pig विकास के समय को लगभग 16 गुना कम कर देता है।

  • सुअर लैटिन है SQL-like language और जब आप SQL से परिचित हों तो Apache Pig सीखना आसान है।

  • Apache Pig जॉइंट, फिल्टर, ऑर्डर आदि जैसे डेटा ऑपरेशंस को सपोर्ट करने के लिए कई बिल्ट-इन ऑपरेटर्स मुहैया कराता है। इसके अलावा, यह नेस्टेड डेटा टाइप्स जैसे ट्यूपल्स, बैग्स और मैप्स भी उपलब्ध कराता है जो MapReduce से गायब हैं।

सुअर की विशेषताएं

Apache Pig निम्नलिखित विशेषताओं के साथ आता है -

  • Rich set of operators - यह कई ऑपरेटरों को ऑपरेशन करने के लिए प्रदान करता है जैसे कि ज्वाइन, सॉर्ट, फाइलर इत्यादि।

  • Ease of programming - सुअर लैटिन एसक्यूएल के समान है और यदि आप एसक्यूएल में अच्छे हैं, तो पिग स्क्रिप्ट लिखना आसान है।

  • Optimization opportunities - अपाचे सुअर में कार्य अपने निष्पादन को स्वचालित रूप से अनुकूलित करते हैं, इसलिए प्रोग्रामर को केवल भाषा के शब्दार्थ पर ध्यान देने की आवश्यकता होती है।

  • Extensibility - मौजूदा ऑपरेटरों का उपयोग करके, उपयोगकर्ता डेटा को पढ़ने, संसाधित करने और लिखने के लिए अपने स्वयं के कार्यों को विकसित कर सकते हैं।

  • UDF’s - सुअर बनाने की सुविधा प्रदान करता है User-defined Functions जावा जैसी अन्य प्रोग्रामिंग भाषाओं में और सुअर लिपियों में उन्हें इनवोक या एंबेड करें।

  • Handles all kinds of data- अपाचे सुअर सभी प्रकार के डेटा का विश्लेषण करता है, दोनों संरचित और साथ ही असंरचित। यह HDFS में परिणाम संग्रहीत करता है।

Apache Pig Vs MapReduce

नीचे सूचीबद्ध अपाचे सुअर और MapReduce के बीच प्रमुख अंतर हैं।

अपाचे सुअर मानचित्र छोटा करना
Apache Pig एक डेटा फ्लो लैंग्वेज है। MapReduce एक डाटा प्रोसेसिंग प्रतिमान है।
यह एक उच्च स्तरीय भाषा है। MapReduce निम्न स्तर और कठोर है।
Apache Pig में एक Join ऑपरेशन करना बहुत सरल है। डेटासेट्स के बीच Join ऑपरेशन करना MapReduce में काफी मुश्किल है।
SQL के बेसिक नॉलेज वाला कोई नौसिखिया प्रोग्रामर Apache Pig के साथ आसानी से काम कर सकता है। Java के एक्सपोजर को MapReduce के साथ काम करना होगा।
अपाचे पिग मल्टी-क्वेरी दृष्टिकोण का उपयोग करता है, जिससे कोड की लंबाई काफी हद तक कम हो जाती है। MapReduce को समान कार्य करने के लिए लगभग 20 गुना अधिक लाइनों की आवश्यकता होगी।
संकलन की कोई आवश्यकता नहीं है। निष्पादन पर, प्रत्येक Apache Pig ऑपरेटर आंतरिक रूप से MapReduce जॉब में परिवर्तित हो जाता है। MapReduce नौकरियों में एक लंबी संकलन प्रक्रिया होती है।

अपाचे सुअर बनाम एसक्यूएल

नीचे सूचीबद्ध अपाचे सुअर और एसक्यूएल के बीच प्रमुख अंतर हैं।

सूअर एसक्यूएल
सुअर लैटिन एक है procedural भाषा: हिन्दी। SQL एक है declarative भाषा: हिन्दी।
अपाचे सुअर में, schemaवैकल्पिक है। हम स्कीमा को डिजाइन किए बिना डेटा स्टोर कर सकते हैं (मान $ 01, $ 02 आदि के रूप में संग्रहीत हैं) SQL में स्कीमा अनिवार्य है।
Apache Pig में डेटा मॉडल है nested relational SQL में उपयोग किया जाने वाला डेटा मॉडल is flat relational
अपाचे सुअर के लिए सीमित अवसर प्रदान करता है Query optimization SQL में क्वेरी ऑप्टिमाइज़ेशन के लिए अधिक अवसर है।

उपरोक्त मतभेदों के अलावा, अपाचे सुअर लैटिन -

  • पाइपलाइन में विभाजन की अनुमति देता है।
  • डेवलपर्स को पाइपलाइन में कहीं भी डेटा संग्रहीत करने की अनुमति देता है।
  • क्रियान्वयन योजनाओं की घोषणा करता है।
  • ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म और लोड) फ़ंक्शन करने के लिए ऑपरेटरों को प्रदान करता है।

अपाचे सुअर बनाम हाइव

Apache Pig और Hive दोनों का उपयोग MapReduce जॉब बनाने के लिए किया जाता है। और कुछ मामलों में, Hive HDFS पर इसी तरह से काम करता है जैसे Apache Pig करता है। निम्नलिखित तालिका में, हमने कुछ महत्वपूर्ण बिंदुओं को सूचीबद्ध किया है जो अपाचे सुअर को हाइव के अलावा सेट करते हैं।

अपाचे सुअर मधुमुखी का छत्ता
अपाचे पिग नामक भाषा का उपयोग करता है Pig Latin। यह मूल रूप से बनाया गया थाYahoo हाइव नामक भाषा का उपयोग करता है HiveQL। यह मूल रूप से बनाया गया थाFacebook
सुअर लैटिन एक डेटा प्रवाह भाषा है। HiveQL एक क्वेरी प्रोसेसिंग भाषा है।
पिग लैटिन एक प्रक्रियात्मक भाषा है और यह पाइपलाइन प्रतिमान में फिट बैठता है। HiveQL एक घोषणात्मक भाषा है।
अपाचे सुअर संरचित, असंरचित और अर्ध-संरचित डेटा को संभाल सकता है। हाइव ज्यादातर संरचित डेटा के लिए है।

अपाचे सुअर के आवेदन

अपाचे सुअर का उपयोग आम तौर पर डेटा वैज्ञानिकों द्वारा तदर्थ प्रसंस्करण और त्वरित प्रोटोटाइप शामिल कार्यों के लिए किया जाता है। अपाचे सुअर का उपयोग किया जाता है -

  • वेब लॉग जैसे विशाल डेटा स्रोतों को संसाधित करने के लिए।
  • खोज प्लेटफार्मों के लिए डेटा प्रोसेसिंग करने के लिए।
  • समय संवेदनशील डेटा लोड को संसाधित करने के लिए।

अपाचे सुअर - इतिहास

में 2006, Apache Pig को याहू पर एक शोध परियोजना के रूप में विकसित किया गया था, खासकर हर डेटासेट पर MapReduce को बनाने और निष्पादित करने के लिए। में2007, अपाचे पिग को अपाचे इनक्यूबेटर के माध्यम से खोला गया था। में2008अपाचे सुअर की पहली रिलीज सामने आई। में2010, अपाचे सुअर ने एक अपाचे शीर्ष-स्तरीय परियोजना के रूप में स्नातक किया।