अपाचे सुअर - त्वरित गाइड

अपाचे सुअर क्या है?

अपाचे सुअर MapReduce पर एक अमूर्त है। यह एक उपकरण / मंच है जिसका उपयोग डेटा के बड़े सेटों का विश्लेषण करने के लिए किया जाता है जो डेटा प्रवाह के रूप में उनका प्रतिनिधित्व करते हैं। सुअर आमतौर पर के साथ प्रयोग किया जाता हैHadoop; हम Apache Pig का उपयोग करके Hadoop में सभी डेटा हेरफेर ऑपरेशन कर सकते हैं।

डेटा विश्लेषण कार्यक्रमों को लिखने के लिए, पिग को एक उच्च-स्तरीय भाषा प्रदान की जाती है Pig Latin। यह भाषा विभिन्न ऑपरेटरों को प्रदान करती है जिनके उपयोग से प्रोग्रामर डेटा पढ़ने, लिखने और प्रसंस्करण के लिए अपने स्वयं के कार्य विकसित कर सकते हैं।

डेटा का उपयोग करने का विश्लेषण करने के लिए Apache Pig, प्रोग्रामर्स को सुअर लैटिन भाषा का उपयोग करके स्क्रिप्ट लिखने की आवश्यकता है। इन सभी लिपियों को आंतरिक रूप से मानचित्र और कार्यों को कम करने के लिए परिवर्तित किया जाता है। अपाचे पिग में एक घटक होता है जिसे जाना जाता हैPig Engine यह पिग लैटिन लिपियों को इनपुट के रूप में स्वीकार करता है और उन लिपियों को MapReduce नौकरियों में परिवर्तित करता है।

हमें अपाचे सुअर की आवश्यकता क्यों है?

प्रोग्रामर जो जावा में इतने अच्छे नहीं हैं, आमतौर पर हडोप के साथ काम करने में संघर्ष करते थे, खासकर किसी भी मैपरेड कार्यों को करते समय। ऐसे सभी प्रोग्रामर के लिए Apache Pig एक वरदान है।

  • का उपयोग करते हुए Pig Latin, जावा में जटिल कोड टाइप किए बिना प्रोग्रामर MapReduce कार्य आसानी से कर सकते हैं।

  • अपाचे सुअर का उपयोग करता है multi-query approach, जिससे कोड की लंबाई कम हो जाती है। उदाहरण के लिए, एक ऑपरेशन जिसमें आपको जावा में कोड (एलओसी) की 200 लाइनें टाइप करने की आवश्यकता होती है, अपाचे पिग में सिर्फ 10 एलओसी से कम टाइप करके आसानी से किया जा सकता है। अंततः Apache Pig विकास के समय को लगभग 16 गुना कम कर देता है।

  • सुअर लैटिन है SQL-like language और जब आप SQL से परिचित हों तो Apache Pig सीखना आसान है।

  • Apache Pig, जॉइन, फिल्टर, ऑर्डर आदि जैसे डेटा ऑपरेशंस को सपोर्ट करने के लिए कई बिल्ट-इन ऑपरेटर्स मुहैया कराता है। इसके अलावा, यह नेस्टेड डेटा टाइप्स जैसे ट्यूपल्स, बैग्स और मैप्स भी प्रदान करता है जो MapReduce से गायब हैं।

सुअर की विशेषताएं

Apache Pig निम्नलिखित विशेषताओं के साथ आता है -

  • Rich set of operators - यह कई ऑपरेटरों को ऑपरेशन में शामिल होने के लिए प्रदान करता है जैसे कि ज्वाइन, सॉर्ट, फाइलर आदि।

  • Ease of programming - सुअर लैटिन एसक्यूएल के समान है और यदि आप एसक्यूएल में अच्छे हैं, तो पिग स्क्रिप्ट लिखना आसान है।

  • Optimization opportunities - अपाचे सुअर में कार्य अपने निष्पादन को स्वचालित रूप से अनुकूलित करते हैं, इसलिए प्रोग्रामर को केवल भाषा के शब्दार्थ पर ध्यान देने की आवश्यकता होती है।

  • Extensibility - मौजूदा ऑपरेटरों का उपयोग करके, उपयोगकर्ता डेटा को पढ़ने, संसाधित करने और लिखने के लिए अपने स्वयं के कार्यों को विकसित कर सकते हैं।

  • UDF’s - सुअर बनाने की सुविधा प्रदान करता है User-defined Functions जावा जैसी अन्य प्रोग्रामिंग भाषाओं में और सुअर लिपियों में उन्हें इनवोक या एंबेड करें।

  • Handles all kinds of data- अपाचे सुअर सभी प्रकार के डेटा का विश्लेषण करता है, दोनों संरचित और साथ ही असंरचित। यह HDFS में परिणाम संग्रहीत करता है।

Apache Pig Vs MapReduce

नीचे सूचीबद्ध अपाचे सुअर और MapReduce के बीच प्रमुख अंतर हैं।

अपाचे सुअर मानचित्र छोटा करना
Apache Pig एक डाटा फ्लो लैंग्वेज है। MapReduce एक डाटा प्रोसेसिंग प्रतिमान है।
यह एक उच्च स्तरीय भाषा है। MapReduce निम्न स्तर और कठोर है।
Apache Pig में Join Join करना बहुत सरल है। डेटासेट्स के बीच Join ऑपरेशन करना MapReduce में काफी मुश्किल है।
SQL के बेसिक नॉलेज वाला कोई नौसिखिया प्रोग्रामर Apache Pig के साथ आसानी से काम कर सकता है। Java के एक्सपोजर को MapReduce के साथ काम करना होगा।
अपाचे पिग मल्टी-क्वेरी दृष्टिकोण का उपयोग करता है, जिससे कोड की लंबाई काफी हद तक कम हो जाती है। MapReduce को समान कार्य करने के लिए लगभग 20 गुना अधिक लाइनों की आवश्यकता होगी।
संकलन की कोई आवश्यकता नहीं है। निष्पादन पर, प्रत्येक Apache Pig ऑपरेटर आंतरिक रूप से MapReduce जॉब में परिवर्तित हो जाता है। MapReduce नौकरियों में एक लंबी संकलन प्रक्रिया होती है।

अपाचे सुअर बनाम एसक्यूएल

नीचे सूचीबद्ध अपाचे सुअर और एसक्यूएल के बीच प्रमुख अंतर हैं।

सूअर एसक्यूएल
सुअर लैटिन एक है procedural भाषा: हिन्दी। SQL एक है declarative भाषा: हिन्दी।
अपाचे सुअर में, schemaवैकल्पिक है। हम स्कीमा को डिजाइन किए बिना डेटा स्टोर कर सकते हैं (मानों को संग्रहीत किया जाता है$01, $02 आदि) SQL में स्कीमा अनिवार्य है।
Apache Pig में डेटा मॉडल है nested relational SQL में उपयोग किया जाने वाला डेटा मॉडल is flat relational
अपाचे सुअर के लिए सीमित अवसर प्रदान करता है Query optimization SQL में क्वेरी ऑप्टिमाइज़ेशन के लिए अधिक अवसर है।

उपरोक्त मतभेदों के अलावा, अपाचे सुअर लैटिन -

  • पाइपलाइन में विभाजन की अनुमति देता है।
  • डेवलपर्स को पाइपलाइन में कहीं भी डेटा संग्रहीत करने की अनुमति देता है।
  • क्रियान्वयन योजनाओं की घोषणा करता है।
  • ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म और लोड) फ़ंक्शन करने के लिए ऑपरेटरों को प्रदान करता है।

अपाचे सुअर बनाम हाइव

Apache Pig और Hive दोनों का उपयोग MapReduce जॉब बनाने के लिए किया जाता है। और कुछ मामलों में, Hive HDFS पर इसी तरह से काम करता है जैसे Apache Pig करता है। निम्नलिखित तालिका में, हमने कुछ महत्वपूर्ण बिंदुओं को सूचीबद्ध किया है जो अपाचे सुअर को हाइव के अलावा सेट करते हैं।

अपाचे सुअर मधुमुखी का छत्ता
अपाचे सुअर नामक भाषा का उपयोग करता है Pig Latin। यह मूल रूप से बनाया गया थाYahoo हाइव नामक भाषा का उपयोग करता है HiveQL। यह मूल रूप से बनाया गया थाFacebook
सुअर लैटिन एक डेटा प्रवाह भाषा है। HiveQL एक क्वेरी प्रोसेसिंग भाषा है।
पिग लैटिन एक प्रक्रियात्मक भाषा है और यह पाइपलाइन प्रतिमान में फिट बैठता है। HiveQL एक घोषणात्मक भाषा है।
Apache Pig संरचित, असंरचित और अर्ध-संरचित डेटा को संभाल सकता है। हाइव ज्यादातर संरचित डेटा के लिए है।

अपाचे सुअर के आवेदन

अपाचे सुअर का उपयोग आम तौर पर डेटा वैज्ञानिकों द्वारा तदर्थ प्रसंस्करण और त्वरित प्रोटोटाइप को शामिल करने वाले कार्यों के लिए किया जाता है। अपाचे सुअर का उपयोग किया जाता है -

  • वेब लॉग जैसे विशाल डेटा स्रोतों को संसाधित करने के लिए।
  • खोज प्लेटफार्मों के लिए डेटा प्रोसेसिंग करने के लिए।
  • समय संवेदनशील डेटा लोड को संसाधित करने के लिए।

अपाचे सुअर - इतिहास

में 2006, Apache Pig को याहू पर एक शोध परियोजना के रूप में विकसित किया गया था, विशेष रूप से हर डेटासेट पर MapReduce को बनाने और निष्पादित करने के लिए। में2007, अपाचे पिग अपाचे इनक्यूबेटर के माध्यम से खुला था। में2008अपाचे सुअर की पहली रिलीज सामने आई। में2010, अपाचे सुअर ने एक अपाचे शीर्ष-स्तरीय परियोजना के रूप में स्नातक किया।

सुअर का उपयोग करके Hadoop में डेटा का विश्लेषण करने के लिए इस्तेमाल की जाने वाली भाषा के रूप में जाना जाता है Pig Latin। यह एक हाईलेवल डेटा प्रोसेसिंग लैंग्वेज है जो डेटा पर विभिन्न ऑपरेशन करने के लिए डेटा प्रकार और ऑपरेटरों का एक समृद्ध सेट प्रदान करती है।

सुअर का उपयोग करके एक विशेष कार्य प्रोग्रामर करने के लिए, प्रोग्रामरों को सुअर लैटिन भाषा का उपयोग करके एक सुअर स्क्रिप्ट लिखने की जरूरत है, और निष्पादन तंत्र (ग्रंट शेल, यूडीएफ, एंबेडेड) में से किसी का उपयोग करके उन्हें निष्पादित करें। निष्पादन के बाद, ये स्क्रिप्ट वांछित उत्पादन का उत्पादन करने के लिए, पिग फ्रेमवर्क द्वारा लागू परिवर्तनों की एक श्रृंखला के माध्यम से जाएगी।

आंतरिक रूप से, Apache Pig इन लिपियों को MapReduce नौकरियों की एक श्रृंखला में परिवर्तित करता है, और इस प्रकार, यह प्रोग्रामर के काम को आसान बनाता है। अपाचे सुअर की वास्तुकला को नीचे दिखाया गया है।

अपाचे सुअर घटक

जैसा कि चित्र में दिखाया गया है, अपाचे सुअर ढांचे में विभिन्न घटक हैं। आइए हम प्रमुख घटकों पर एक नज़र डालें।

पार्सर

प्रारंभ में सुअर लिपियों को पार्सर द्वारा नियंत्रित किया जाता है। यह स्क्रिप्ट की वाक्य रचना की जाँच करता है, प्रकार की जाँच करता है, और अन्य विविध जाँच करता है। पार्सर का आउटपुट एक डीएजी (निर्देशित एसाइक्लिक ग्राफ) होगा, जो पिग लैटिन के बयानों और तार्किक ऑपरेटरों का प्रतिनिधित्व करता है।

डीएजी में, स्क्रिप्ट के तार्किक ऑपरेटरों को नोड्स के रूप में दर्शाया जाता है और डेटा प्रवाह को किनारों के रूप में दर्शाया जाता है।

अनुकूलक

लॉजिकल ऑप्टिमाइज़र को लॉजिकल प्लान (DAG) पास किया जाता है, जो लॉजिकल ऑप्टिमाइज़ेशन जैसे प्रोजेक्शन और पुशडाउन को करता है।

संकलक

कंपाइलर मैपरराइड नौकरियों की एक श्रृंखला में अनुकूलित तार्किक योजना को संकलित करता है।

निष्पादन इंजन

अंत में MapReduce नौकरियों को हल क्रम में Hadoop को प्रस्तुत किया जाता है। अंत में, इन MapReduce नौकरियों को वांछित परिणामों का उत्पादन करने वाले Hadoop पर निष्पादित किया जाता है।

सुअर लैटिन डेटा मॉडल

पिग लैटिन का डेटा मॉडल पूरी तरह से नेस्टेड है और यह जटिल गैर-परमाणु डेटाटाइप जैसे अनुमति देता है map तथा tuple। नीचे दिया गया है कि सुअर लैटिन के डेटा मॉडल का चित्रण प्रतिनिधित्व है।

परमाणु

सुअर लैटिन में किसी भी एक मूल्य, उनके डेटा के बावजूद, प्रकार को एक के रूप में जाना जाता है Atom। इसे स्ट्रिंग के रूप में संग्रहीत किया जाता है और इसे स्ट्रिंग और संख्या के रूप में उपयोग किया जा सकता है। int, long, float, double, chararray, और bytearray सुअर के परमाणु मूल्य हैं। डेटा का एक टुकड़ा या एक सरल परमाणु मूल्य के रूप में जाना जाता हैfield

Example - 'राज' या '30'

टपल

एक रिकॉर्ड जो खेतों के एक निर्धारित सेट से बनता है, जिसे टूपल के रूप में जाना जाता है, फ़ील्ड किसी भी प्रकार का हो सकता है। एक ट्यूबल RDBMS की तालिका में एक पंक्ति के समान है।

Example - (राजा, 30)

बैग

एक बैग ट्यूपल्स का एक अनियंत्रित सेट है। दूसरे शब्दों में, एक बैग के रूप में टुपल्स (गैर-अद्वितीय) का एक संग्रह जाना जाता है। प्रत्येक टपल में किसी भी संख्या में फ़ील्ड (लचीले स्कीमा) हो सकते हैं। एक बैग का प्रतिनिधित्व '{}' द्वारा किया जाता है। यह आरडीबीएमएस में एक टेबल के समान है, लेकिन आरडीबीएमएस में एक टेबल के विपरीत, यह आवश्यक नहीं है कि प्रत्येक टपल में समान फ़ील्ड्स हों या एक ही स्थिति (कॉलम) में फ़ील्ड एक ही प्रकार के हों।

Example - {(राजा, 30), (मोहम्मद, 45)}

एक बैग एक रिश्ते में एक क्षेत्र हो सकता है; उस संदर्भ में, इसे के रूप में जाना जाता हैinner bag

Example- {राजा, 30, {9848022338, [email protected],} }

नक्शा

एक नक्शा (या डेटा मैप) कुंजी-मूल्य जोड़े का एक सेट है। keyप्रकार के होने की जरूरत है और यह अद्वितीय होना चाहिए। valueकिसी भी प्रकार का हो सकता है। यह '[]' द्वारा दर्शाया गया है

Example - # नाम # राजा, उम्र # 30]

रिश्ता

एक संबंध टुपल्स का एक बैग है। पिग लैटिन में संबंध अनियंत्रित हैं (इस बात की कोई गारंटी नहीं है कि ट्यूपल किसी विशेष क्रम में संसाधित होते हैं)।

यह अध्याय बताता है कि डाउनलोड, इंस्टॉल और सेट अप कैसे करें Apache Pig आपके सिस्टम में

आवश्यक शर्तें

यह आवश्यक है कि अपाचे सुअर के लिए जाने से पहले आपके पास अपने सिस्टम पर Hadoop और Java स्थापित हो। इसलिए, Apache Pig को स्थापित करने से पहले, Hadoop और Java को निम्न लिंक में दिए गए चरणों का पालन करके स्थापित करें -

http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

Apache Pig डाउनलोड करें

सबसे पहले, निम्नलिखित वेबसाइट से Apache Pig का नवीनतम संस्करण डाउनलोड करें - https://pig.apache.org/

चरण 1

Apache Pig वेबसाइट का होमपेज खोलें। अनुभाग के तहतNews, लिंक पर क्लिक करें release page जैसा कि निम्नलिखित स्नैपशॉट में दिखाया गया है।

चरण 2

निर्दिष्ट लिंक पर क्लिक करने पर, आपको इसे पुनर्निर्देशित किया जाएगा Apache Pig Releasesपृष्ठ। इस पृष्ठ पर, के तहतDownload अनुभाग, आपके पास दो लिंक होंगे, अर्थात् Pig 0.8 and later तथा Pig 0.7 and before। लिंक पर क्लिक करेंPig 0.8 and later, तो आप दर्पण के एक सेट वाले पृष्ठ पर पुनर्निर्देशित हो जाएंगे।

चरण 3

नीचे दिखाए गए अनुसार इनमें से किसी एक दर्पण को चुनें और क्लिक करें।

चरण 4

ये दर्पण आपको ले जाएंगे Pig Releasesपृष्ठ। इस पृष्ठ में Apache Pig के विभिन्न संस्करण हैं। उनमें से नवीनतम संस्करण पर क्लिक करें।

चरण 5

इन फ़ोल्डरों के भीतर, आपके पास विभिन्न वितरणों में अपाचे सुअर के स्रोत और बाइनरी फाइलें होंगी। स्रोत की टार फाइलें और Apache Pig 0.15 की बाइनरी फाइलें डाउनलोड करें,pig0.15.0-src.tar.gz तथा pig-0.15.0.tar.gz.

अपाचे सुअर स्थापित करें

Apache Pig सॉफ्टवेयर डाउनलोड करने के बाद, इसे नीचे दिए गए चरणों का पालन करके अपने लिनक्स वातावरण में स्थापित करें।

चरण 1

उसी निर्देशिका में नाम के साथ एक निर्देशिका बनाएँ जहां की स्थापना निर्देशिका है Hadoop, Java,और अन्य सॉफ्टवेयर स्थापित किए गए थे। (हमारे ट्यूटोरियल में, हमने Hadoop नाम के उपयोगकर्ता में पिग डायरेक्टरी बनाई है)।

$ mkdir Pig

चरण 2

डाउनलोड की गई टार फ़ाइलों को नीचे दिखाए गए अनुसार निकालें।

$ cd Downloads/ 
$ tar zxvf pig-0.15.0-src.tar.gz $ tar zxvf pig-0.15.0.tar.gz

चरण 3

की सामग्री को स्थानांतरित करें pig-0.15.0-src.tar.gz के लिए फ़ाइल Pig निर्देशिका पहले बनाई गई जैसा कि नीचे दिखाया गया है।

$ mv pig-0.15.0-src.tar.gz/* /home/Hadoop/Pig/

अपाचे सुअर कॉन्फ़िगर करें

Apache Pig को स्थापित करने के बाद, हमें इसे कॉन्फ़िगर करना होगा। कॉन्फ़िगर करने के लिए, हमें दो फ़ाइलों को संपादित करने की आवश्यकता है -bashrc and pig.properties

.bashrc फ़ाइल

में .bashrc फ़ाइल, निम्न चर सेट करें -

  • PIG_HOME Apache Pig के इंस्टॉलेशन फ़ोल्डर में फ़ोल्डर,

  • PATH बिन फ़ोल्डर के लिए पर्यावरण चर, और

  • PIG_CLASSPATH आपकी Hadoop स्थापनाओं के निर्देशिका (कॉन्फ़िगरेशन) फ़ोल्डर में वातावरण चर (वह निर्देशिका जिसमें कोर-site.xml, hdfs-site.xml और mapred-site.xml फ़ाइलें हैं)।

export PIG_HOME = /home/Hadoop/Pig
export PATH  = $PATH:/home/Hadoop/pig/bin
export PIG_CLASSPATH = $HADOOP_HOME/conf

pig.properties फ़ाइल

में conf सुअर का फ़ोल्डर, हमारे पास एक फ़ाइल है जिसका नाम है pig.properties। Pig.properties फ़ाइल में, आप नीचे दिए गए अनुसार विभिन्न पैरामीटर सेट कर सकते हैं।

pig -h properties

निम्नलिखित गुण समर्थित हैं -

Logging: verbose = true|false; default is false. This property is the same as -v
       switch brief=true|false; default is false. This property is the same 
       as -b switch debug=OFF|ERROR|WARN|INFO|DEBUG; default is INFO.             
       This property is the same as -d switch aggregate.warning = true|false; default is true. 
       If true, prints count of warnings of each type rather than logging each warning.		 
		 
Performance tuning: pig.cachedbag.memusage=<mem fraction>; default is 0.2 (20% of all memory).
       Note that this memory is shared across all large bags used by the application.         
       pig.skewedjoin.reduce.memusagea=<mem fraction>; default is 0.3 (30% of all memory).
       Specifies the fraction of heap available for the reducer to perform the join.
       pig.exec.nocombiner = true|false; default is false.
           Only disable combiner as a temporary workaround for problems.         
       opt.multiquery = true|false; multiquery is on by default.
           Only disable multiquery as a temporary workaround for problems.
       opt.fetch=true|false; fetch is on by default.
           Scripts containing Filter, Foreach, Limit, Stream, and Union can be dumped without MR jobs.         
       pig.tmpfilecompression = true|false; compression is off by default.             
           Determines whether output of intermediate jobs is compressed.         
       pig.tmpfilecompression.codec = lzo|gzip; default is gzip.
           Used in conjunction with pig.tmpfilecompression. Defines compression type.         
       pig.noSplitCombination = true|false. Split combination is on by default.
           Determines if multiple small files are combined into a single map.         
			  
       pig.exec.mapPartAgg = true|false. Default is false.             
           Determines if partial aggregation is done within map phase, before records are sent to combiner.         
       pig.exec.mapPartAgg.minReduction=<min aggregation factor>. Default is 10.             
           If the in-map partial aggregation does not reduce the output num records by this factor, it gets disabled.
			  
Miscellaneous: exectype = mapreduce|tez|local; default is mapreduce. This property is the same as -x switch
       pig.additional.jars.uris=<comma seperated list of jars>. Used in place of register command.
       udf.import.list=<comma seperated list of imports>. Used to avoid package names in UDF.
       stop.on.failure = true|false; default is false. Set to true to terminate on the first error.         
       pig.datetime.default.tz=<UTC time offset>. e.g. +08:00. Default is the default timezone of the host.
           Determines the timezone used to handle datetime datatype and UDFs.
Additionally, any Hadoop property can be specified.

स्थापना का सत्यापन करना

संस्करण कमांड टाइप करके Apache Pig की स्थापना को सत्यापित करें। यदि स्थापना सफल होती है, तो आपको अपाचे सुअर का संस्करण मिलेगा जैसा कि नीचे दिखाया गया है।

$ pig –version 
 
Apache Pig version 0.15.0 (r1682971)  
compiled Jun 01 2015, 11:44:35

पिछले अध्याय में, हमने समझाया कि अपाचे सुअर कैसे स्थापित किया जाए। इस अध्याय में, हम चर्चा करेंगे कि अपाचे सुअर को कैसे निष्पादित किया जाए।

अपाचे सुअर निष्पादन मोड

आप Apache Pig को दो मोड में चला सकते हैं, अर्थात्, Local Mode तथा HDFS mode

स्थानीय प्रणाली

इस मोड में, सभी फ़ाइलें आपके स्थानीय होस्ट और स्थानीय फ़ाइल सिस्टम से स्थापित और चलाई जाती हैं। Hadoop या HDFS की कोई आवश्यकता नहीं है। यह मोड आम तौर पर परीक्षण के उद्देश्य के लिए उपयोग किया जाता है।

MapReduce मोड

MapReduce मोड वह जगह है जहां हम Apache Pig का उपयोग करके Hadoop फाइल सिस्टम (HDFS) में मौजूद डेटा को लोड या प्रोसेस करते हैं। इस मोड में, जब भी हम डेटा को प्रोसेस करने के लिए पिग लैटिन स्टेटमेंट्स को निष्पादित करते हैं, तो एचडीआरएस में मौजूद डेटा पर एक विशेष ऑपरेशन करने के लिए मैपरेडेस जॉब को बैक-एंड में लागू किया जाता है।

अपाचे सुअर निष्पादन तंत्र

अपाचे पिग स्क्रिप्ट को तीन तरीकों से निष्पादित किया जा सकता है, अर्थात्, इंटरैक्टिव मोड, बैच मोड और एम्बेडेड मोड।

  • Interactive Mode(ग्रंट शेल) - आप अपाचे सुअर को इंटरएक्टिव मोड में ग्रंट शेल का उपयोग करके चला सकते हैं। इस शेल में, आप पिग लैटिन स्टेटमेंट दर्ज कर सकते हैं और आउटपुट (डंप ऑपरेटर का उपयोग करके) प्राप्त कर सकते हैं।

  • Batch Mode (स्क्रिप्ट) - आप Apache Pig को बैच मोड में Pig लैटिन स्क्रिप्ट के साथ सिंगल फाइल में लिखकर चला सकते हैं .pig विस्तार।

  • Embedded Mode (UDF) - Apache Pig हमारे अपने कार्यों को परिभाषित करने का प्रावधान प्रदान करता है (Uसेवा Defined Fजावा जैसी प्रोग्रामिंग भाषाओं में unctions) और हमारी स्क्रिप्ट में उनका उपयोग करना।

ग्रन्ट शेल का आह्वान

आप एक वांछित मोड (स्थानीय / MapReduce) में ग्रन्ट शेल का उपयोग कर सकते हैं −x विकल्प के रूप में नीचे दिखाया गया है।

स्थानीय प्रणाली MapReduce मोड

Command −

$ ./pig –x स्थानीय

Command −

$ ./pig -x mapreduce

Output -

Output -

इनमें से कोई भी कमांड आपको नीचे दिखाए गए अनुसार ग्रन्ट शेल प्रॉम्प्ट देता है।

grunt>

आप ग्रन्ट शेल का उपयोग करके बाहर निकल सकते हैं ‘ctrl + d’.

ग्रंट शेल को लागू करने के बाद, आप सीधे इसमें सुअर लैटिन के बयान दर्ज करके एक सुअर स्क्रिप्ट निष्पादित कर सकते हैं।

grunt> customers = LOAD 'customers.txt' USING PigStorage(',');

बैच मोड में अपाचे सुअर का निष्पादन

आप किसी फ़ाइल में संपूर्ण Pig लैटिन स्क्रिप्ट लिख सकते हैं और इसका उपयोग करके निष्पादित कर सकते हैं –x command। मान लें कि हमारे पास एक फ़ाइल में एक सुअर स्क्रिप्ट है जिसका नाम हैsample_script.pig जैसा की नीचे दिखाया गया।

Sample_script.pig

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);
  
Dump student;

अब, आप उपरोक्त फ़ाइल में स्क्रिप्ट को निष्पादित कर सकते हैं जैसा कि नीचे दिखाया गया है।

स्थानीय प्रणाली MapReduce मोड
$ सुअर -x स्थानीय Sample_script.pig $ सुअर -x मैप्रेडिक Sample_script.pig

Note - हम विस्तार से चर्चा करेंगे कि पिग स्क्रिप्ट को कैसे चलाना है Bach mode और में embedded mode बाद के अध्यायों में।

ग्रंट शेल को लागू करने के बाद, आप शेल में अपनी पिग स्क्रिप्ट चला सकते हैं। इसके अतिरिक्त, ग्रंट शेल द्वारा प्रदान की जाने वाली कुछ उपयोगी शेल और उपयोगिता कमांड हैं। यह अध्याय ग्रंट शेल द्वारा प्रदान किए गए शेल और उपयोगिता कमांड की व्याख्या करता है।

Note - इस अध्याय के कुछ भागों में, जैसे आदेश Load तथा Storeउपयोग किया जाता है। उन पर विस्तार से जानकारी प्राप्त करने के लिए संबंधित अध्यायों का संदर्भ लें।

शेल कमांड्स

Apache Pig के ग्रंट शेल का उपयोग मुख्य रूप से Pig Latin लिपियों को लिखने के लिए किया जाता है। उससे पहले, हम किसी भी शेल कमांड का उपयोग कर सकते हैंsh तथा fs

श कमान

का उपयोग करते हुए shकमांड, हम ग्रन्ट शेल से किसी भी शेल कमांड को इनवाइट कर सकते हैं। का उपयोग करते हुएsh ग्रंट शेल से कमांड, हम उन कमांड को निष्पादित नहीं कर सकते हैं जो शेल वातावरण का एक हिस्सा हैं (ex - सीडी)।

Syntax

नीचे दिए गए का सिंटैक्स है sh आदेश।

grunt> sh shell command parameters

Example

हम आह्वान कर सकते हैं ls का उपयोग कर ग्रन्ट शेल से लिनक्स शेल की कमान shविकल्प के रूप में नीचे दिखाया गया है। इस उदाहरण में, यह फ़ाइलों को सूची बद्ध करता है/pig/bin/ निर्देशिका।

grunt> sh ls
   
pig 
pig_1444799121955.log 
pig.cmd 
pig.py

fs कमांड

का उपयोग करते हुए fs कमांड, हम ग्रन्ट शेल से किसी भी FsShell कमांड को लागू कर सकते हैं।

Syntax

नीचे दिए गए का सिंटैक्स है fs आदेश।

grunt> sh File System command parameters

Example

हम fs कमांड का उपयोग करके ग्रंट शेल से एचडीएफएस के ls कमांड को लागू कर सकते हैं। निम्नलिखित उदाहरण में, यह एचडीएफएस रूट डायरेक्टरी में फाइलों को सूचीबद्ध करता है।

grunt> fs –ls
  
Found 3 items
drwxrwxrwx   - Hadoop supergroup          0 2015-09-08 14:13 Hbase
drwxr-xr-x   - Hadoop supergroup          0 2015-09-09 14:52 seqgen_data
drwxr-xr-x   - Hadoop supergroup          0 2015-09-08 11:30 twitter_data

उसी तरह, हम ग्रंट शेल से अन्य सभी फ़ाइल सिस्टम शेल कमांड का उपयोग करके इनवॉइस कर सकते हैं fs आदेश।

यूटिलिटी कमांड्स

ग्रंट शेल उपयोगिता कमांड का एक सेट प्रदान करता है। इनमें उपयोगिता कमांड जैसे शामिल हैंclear, help, history, quit, तथा set; और जैसे आदेशexec, kill, तथा runग्रन्ट शेल से सुअर को नियंत्रित करने के लिए। नीचे दिए गए ग्रंट शेल द्वारा प्रदान की गई उपयोगिता कमांड का वर्णन है।

स्पष्ट कमान

clear ग्रंट शेल की स्क्रीन को साफ करने के लिए कमांड का उपयोग किया जाता है।

Syntax

आप का उपयोग करके ग्रन्ट शेल की स्क्रीन को साफ कर सकते हैं clear जैसा कि नीचे दिखाया गया है।

grunt> clear

कमांड की मदद करें

help कमांड आपको पिग कमांड या पिग प्रॉपर्टीज की एक सूची देता है।

Usage

आप का उपयोग कर सुअर आदेशों की एक सूची प्राप्त कर सकते हैं help जैसा कि नीचे दिखाया गया है।

grunt> help

Commands: <pig latin statement>; - See the PigLatin manual for details:
http://hadoop.apache.org/pig
  
File system commands:fs <fs arguments> - Equivalent to Hadoop dfs  command:
http://hadoop.apache.org/common/docs/current/hdfs_shell.html
	 
Diagnostic Commands:describe <alias>[::<alias] - Show the schema for the alias.
Inner aliases can be described as A::B.
    explain [-script <pigscript>] [-out <path>] [-brief] [-dot|-xml] 
       [-param <param_name>=<pCram_value>]
       [-param_file <file_name>] [<alias>] - 
       Show the execution plan to compute the alias or for entire script.
       -script - Explain the entire script.
       -out - Store the output into directory rather than print to stdout.
       -brief - Don't expand nested plans (presenting a smaller graph for overview).
       -dot - Generate the output in .dot format. Default is text format.
       -xml - Generate the output in .xml format. Default is text format.
       -param <param_name - See parameter substitution for details.
       -param_file <file_name> - See parameter substitution for details.
       alias - Alias to explain.
       dump <alias> - Compute the alias and writes the results to stdout.

Utility Commands: exec [-param <param_name>=param_value] [-param_file <file_name>] <script> -
       Execute the script with access to grunt environment including aliases.
       -param <param_name - See parameter substitution for details.
       -param_file <file_name> - See parameter substitution for details.
       script - Script to be executed.
    run [-param <param_name>=param_value] [-param_file <file_name>] <script> -
       Execute the script with access to grunt environment.
		 -param <param_name - See parameter substitution for details.         
       -param_file <file_name> - See parameter substitution for details.
       script - Script to be executed.
    sh  <shell command> - Invoke a shell command.
    kill <job_id> - Kill the hadoop job specified by the hadoop job id.
    set <key> <value> - Provide execution parameters to Pig. Keys and values are case sensitive.
       The following keys are supported:
       default_parallel - Script-level reduce parallelism. Basic input size heuristics used 
       by default.
       debug - Set debug on or off. Default is off.
       job.name - Single-quoted name for jobs. Default is PigLatin:<script name>     
       job.priority - Priority for jobs. Values: very_low, low, normal, high, very_high.
       Default is normal stream.skippath - String that contains the path.
       This is used by streaming any hadoop property.
    help - Display this message.
    history [-n] - Display the list statements in cache.
       -n Hide line numbers.
    quit - Quit the grunt shell.

इतिहास कमान

यह कमांड ग्रंट बेचने के बाद से अब तक निष्पादित / उपयोग किए गए बयानों की एक सूची प्रदर्शित करता है।

Usage

मान लें कि हमने ग्रंट शेल खोलने के बाद से तीन बयानों को निष्पादित किया है।

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',');
 
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
 
grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');

फिर, का उपयोग कर history कमांड निम्न आउटपुट का उत्पादन करेगा।

grunt> history

customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(','); 
  
orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
   
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');

कमांड सेट करें

set सुअर में उपयोग की जाने वाली चाबियों को मान दिखाने / असाइन करने के लिए कमांड का उपयोग किया जाता है।

Usage

इस कमांड का उपयोग करके, आप निम्न कुंजियों पर मान सेट कर सकते हैं।

चाभी विवरण और मूल्य
default_parallel आप इस कुंजी के मान के रूप में किसी भी पूरी संख्या को पास करके मानचित्र नौकरी के लिए रिड्यूसर की संख्या निर्धारित कर सकते हैं।
debug आप इस कुंजी को चालू / बंद करके सुअर में डीबगिंग के खतरे को बंद या चालू कर सकते हैं।
job.name आप इस कुंजी को एक स्ट्रिंग मान पास करके नौकरी का नाम आवश्यक कार्य पर सेट कर सकते हैं।
job.priority

आप इस कुंजी में निम्नलिखित में से किसी एक मान को पास करके नौकरी की प्राथमिकता तय कर सकते हैं -

  • very_low
  • low
  • normal
  • high
  • very_high
stream.skippath स्ट्रीमिंग के लिए, आप उस पथ को सेट कर सकते हैं जहां से डेटा को स्थानांतरित नहीं करना है, इस कुंजी के लिए स्ट्रिंग के रूप में वांछित पथ को पास करके।

आज्ञा छोड़ो

आप इस आदेश का उपयोग करके ग्रंट शेल से बाहर निकल सकते हैं।

Usage

नीचे दिखाए अनुसार ग्रन्ट शेल से बाहर निकलें।

grunt> quit

आइए अब हम उन कमांडों पर एक नज़र डालते हैं जिनके उपयोग से आप ग्रंट शेल से अपाचे सुअर को नियंत्रित कर सकते हैं।

निष्पादित करें

का उपयोग करते हुए exec कमांड, हम पिग स्क्रिप्ट को ग्रंट शेल से निष्पादित कर सकते हैं।

Syntax

नीचे दिए गए उपयोगिता कमांड का सिंटैक्स है exec

grunt> exec [–param param_name = param_value] [–param_file file_name] [script]

Example

चलिए मान लेते हैं कि एक फाइल है जिसका नाम है student.txt में /pig_data/ निम्नलिखित सामग्री के साथ HDFS की निर्देशिका।

Student.txt

001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi

और, मान लें कि हमारे पास एक स्क्रिप्ट फ़ाइल है जिसका नाम है sample_script.pig में /pig_data/ निम्नलिखित सामग्री के साथ HDFS की निर्देशिका।

Sample_script.pig

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',') 
   as (id:int,name:chararray,city:chararray);
  
Dump student;

अब, ग्रन्ट शेल से उपरोक्त स्क्रिप्ट को निष्पादित करते हैं exec जैसा कि नीचे दिखाया गया है।

grunt> exec /sample_script.pig

Output

exec कमांड स्क्रिप्ट को निष्पादित करता है sample_script.pig। जैसा कि स्क्रिप्ट में निर्देशित है, यह लोड करता हैstudent.txt पिग में फ़ाइल करें और आपको निम्न सामग्री प्रदर्शित करने वाले डंप ऑपरेटर का परिणाम देता है।

(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)

मार डालो कमान

आप इस आदेश का उपयोग करके ग्रंट शेल से नौकरी मार सकते हैं।

Syntax

नीचे दिए गए का सिंटैक्स है kill आदेश।

grunt> kill JobId

Example

मान लीजिए कि आईडी चल रहा है Id_0055, आप इसे का उपयोग करके ग्रन्ट शेल से मार सकते हैं kill कमांड, जैसा कि नीचे दिखाया गया है।

grunt> kill Id_0055

चलाने के आदेश

आप का उपयोग करके ग्रन्ट शेल से एक सुअर स्क्रिप्ट चला सकते हैं run आदेश

Syntax

नीचे दिए गए का सिंटैक्स है run आदेश।

grunt> run [–param param_name = param_value] [–param_file file_name] script

Example

चलिए मान लेते हैं कि एक फाइल है जिसका नाम है student.txt में /pig_data/ निम्नलिखित सामग्री के साथ HDFS की निर्देशिका।

Student.txt

001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi

और, मान लें कि हमारे पास एक स्क्रिप्ट फ़ाइल है जिसका नाम है sample_script.pig निम्नलिखित सामग्री के साथ स्थानीय फाइल सिस्टम में।

Sample_script.pig

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);

अब, नीचे दिए गए अनुसार रन कमांड का उपयोग करके ग्रंट शेल से उपरोक्त स्क्रिप्ट को रन करें।

grunt> run /sample_script.pig

आप स्क्रिप्ट का आउटपुट देख सकते हैं Dump operator जैसा की नीचे दिखाया गया।

grunt> Dump;

(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)

Note - के बीच का अंतर exec और यह run कमांड यह है कि यदि हम उपयोग करते हैं runस्क्रिप्ट से दिए गए कथन कमांड इतिहास में उपलब्ध हैं।

सुअर लैटिन अपाचे सुअर का उपयोग कर Hadoop में डेटा का विश्लेषण करने के लिए इस्तेमाल की जाने वाली भाषा है। इस अध्याय में, हम सुअर लैटिन की मूल बातें जैसे कि सुअर लैटिन कथन, डेटा प्रकार, सामान्य और संबंधपरक ऑपरेटर और सुअर लैटिन यूडीएफ के बारे में चर्चा करने जा रहे हैं।

सुअर लैटिन - डेटा मॉडल

जैसा कि पिछले अध्यायों में चर्चा की गई है, सुअर का डेटा मॉडल पूरी तरह से नेस्टेड है। एRelationपिग लैटिन डेटा मॉडल की सबसे बाहरी संरचना है। और यह एक हैbag कहाँ -

  • एक बैग टुपल्स का एक संग्रह है।
  • एक टपल खेतों का एक व्यवस्थित सेट है।
  • एक फ़ील्ड डेटा का एक टुकड़ा है।

सुअर लैटिन - स्टेटमेट

सुअर लैटिन का उपयोग करते हुए डेटा संसाधित करते समय, statements बुनियादी निर्माण हैं।

  • ये कथन साथ काम करते हैं relations। उनमे शामिल हैexpressions तथा schemas

  • प्रत्येक कथन एक अर्धविराम (;) के साथ समाप्त होता है।

  • हम बयानों के माध्यम से, सुअर लैटिन द्वारा प्रदान किए गए ऑपरेटरों का उपयोग करके विभिन्न कार्यों का प्रदर्शन करेंगे।

  • अन्य सभी कार्यों को करते समय LOAD और STORE को छोड़कर, Pig Latin स्टेटमेंट इनपुट के रूप में एक संबंध लेते हैं और आउटपुट के रूप में एक और संबंध बनाते हैं।

  • जैसे ही आप एंटर करेंगे Loadग्रन्ट शेल में बयान, इसकी शब्दार्थ जाँच की जाएगी। स्कीमा की सामग्री को देखने के लिए, आपको उपयोग करने की आवश्यकता हैDumpऑपरेटर। प्रदर्शन करने के बाद हीdump ऑपरेशन, फाइल सिस्टम में डेटा लोड करने के लिए MapReduce का काम किया जाएगा।

उदाहरण

नीचे दिया गया एक सुअर लैटिन स्टेटमेंट है, जो अपाचे सुअर को डेटा लोड करता है।

grunt> Student_data = LOAD 'student_data.txt' USING PigStorage(',')as 
   ( id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray );

सुअर लैटिन - डेटा प्रकार

नीचे दी गई तालिका में सुअर लैटिन डेटा प्रकारों का वर्णन किया गया है।

एस.एन. डाटा प्रकार विवरण और उदाहरण
1 पूर्णांक

एक हस्ताक्षरित 32-बिट पूर्णांक का प्रतिनिधित्व करता है।

Example : 8

2 लंबा

एक हस्ताक्षरित 64-बिट पूर्णांक का प्रतिनिधित्व करता है।

Example : 5 एल

3 नाव

एक हस्ताक्षरित 32-बिट फ़्लोटिंग बिंदु का प्रतिनिधित्व करता है।

Example : 5.5 एफ

4 दोहरा

64-बिट फ़्लोटिंग पॉइंट का प्रतिनिधित्व करता है।

Example : 10.5

5 chararray

यूनिकोड UTF-8 प्रारूप में एक चरित्र सरणी (स्ट्रिंग) का प्रतिनिधित्व करता है।

Example : 'ट्यूटोरियल पॉइंट'

6 bytearray

एक बाइट सरणी (बूँद) का प्रतिनिधित्व करता है।

7 बूलियन

एक बूलियन मूल्य का प्रतिनिधित्व करता है।

Example : सही गलत।

8 दिनांक और समय

दिनांक-समय का प्रतिनिधित्व करता है।

Example : 1970-01-01T00: 00: 00.000 + 00: 00

9 Biginteger

एक जावा BigInteger का प्रतिनिधित्व करता है।

Example : 60708090709

10 BigDecimal

जावा बिगडेसीमल का प्रतिनिधित्व करता है

Example : 185.98376256272893883

जटिल प्रकार
1 1 टपल

एक टपल खेतों का एक व्यवस्थित सेट है।

Example : (राज, 30)

12 बैग

एक बैग टुपल्स का एक संग्रह है।

Example : {(राजू, 30), (मोहम्मद, 45)}

13 नक्शा

एक मानचित्र कुंजी-मूल्य जोड़े का एक सेट है।

Example : ['नाम' # 'राजू', 'उम्र' # 30]

अशक्त मान

उपरोक्त सभी प्रकार के डेटा का मान NULL हो सकता है। Apache Pig अशक्त मानों को उसी तरह से व्यवहार करता है जैसे SQL करता है।

एक अशक्त एक अज्ञात मूल्य या एक न के बराबर मूल्य हो सकता है। इसका उपयोग वैकल्पिक मानों के लिए प्लेसहोल्डर के रूप में किया जाता है। ये नल स्वाभाविक रूप से हो सकते हैं या एक ऑपरेशन का परिणाम हो सकते हैं।

सुअर लैटिन - अंकगणित संचालक

निम्न तालिका सुअर लैटिन के अंकगणितीय ऑपरेटरों का वर्णन करती है। मान लीजिए एक = 10 और बी = 20।

ऑपरेटर विवरण उदाहरण
+

Addition - ऑपरेटर के दोनों ओर मान जोड़ता है

a + b 30 देगा
-

Subtraction - बाएं हाथ से दाहिने हाथ के ऑपरेंड को घटाते हैं

a - b −10 देगा
*

Multiplication - ऑपरेटर के दोनों ओर मूल्यों को गुणा करता है

a * b 200 देगा
/

Division - दाएं हाथ के ऑपरेंड से बाएं हाथ का ऑपरेशन

b / a 2 देगा
%

Modulus - डिवाइडर बाएं हाथ से दाहिने हाथ से ऑपरेट होता है और शेष बचता है

ब% ए वल 0 ट
? :

Bincond- बूलियन ऑपरेटरों का मूल्यांकन करता है। नीचे दिखाए गए अनुसार इसके तीन ऑपरेंड हैं।

परिवर्तनशील x = (अभिव्यक्ति)? value1 अगर सच है :value2 अगर झूठ है

b = (a == 1)? 20: 30;

अगर a = 1 b का मान 20 है।

अगर a =! b का मान ३० है।

मामला

कब

फिर

ELSE END

Case - केस संचालक नेस्टेड बोंकंड ऑपरेटर के बराबर है।

CASE f2% 2

जब 0 'भी'

जब 1 'अजीब'

समाप्त

सुअर लैटिन - तुलना संचालक

निम्न तालिका सुअर लैटिन के तुलना ऑपरेटरों का वर्णन करती है।

ऑपरेटर विवरण उदाहरण
==

Equal- जाँच करता है कि दो ऑपरेंड का मान बराबर है या नहीं; यदि हाँ, तो स्थिति सच हो जाती है।

(a = b) सत्य नहीं है
! =

Not Equal- जाँच करता है कि दो ऑपरेंड का मान बराबर है या नहीं। यदि मूल्य समान नहीं हैं, तो स्थिति सच हो जाती है।

(a! = b) सत्य है।
>

Greater than- जांचता है कि क्या बाएं ऑपरेंड का मूल्य सही ऑपरेंड के मूल्य से अधिक है। यदि हाँ, तो स्थिति सच हो जाती है।

(a> b) सत्य नहीं है।
<

Less than- जाँच करता है कि क्या बाएं ऑपरेंड का मूल्य सही ऑपरेंड के मूल्य से कम है। यदि हाँ, तो स्थिति सच हो जाती है।

(a <b) सत्य है।
> =

Greater than or equal to- जाँच करता है कि क्या बाएं संकार्य का मान दाहिने संचालक के मान से अधिक या उसके बराबर है। यदि हाँ, तो स्थिति सच हो जाती है।

(a> = b) सत्य नहीं है।
<=

Less than or equal to- जाँच करता है कि बाएं ऑपरेंड का मान सही ऑपरेंड के मान से कम या बराबर है। यदि हाँ, तो स्थिति सच हो जाती है।

(ए <= बी) सच है।
माचिस

Pattern matching - जाँच करता है कि क्या बाएं हाथ की ओर की स्ट्रिंग दाएं हाथ की साइड में स्थिर के साथ मेल खाती है।

f1 '। * ट्यूटोरियल। *'

सुअर लैटिन - प्रकार निर्माण संचालक

निम्न तालिका सुअर लैटिन के प्रकार के निर्माण ऑपरेटरों का वर्णन करती है।

ऑपरेटर विवरण उदाहरण
()

Tuple constructor operator - इस ऑपरेटर का उपयोग टूपल बनाने के लिए किया जाता है।

(राजू, ३०)
{}

Bag constructor operator - इस ऑपरेटर का इस्तेमाल बैग बनाने के लिए किया जाता है।

{(राजू, 30), (मोहम्मद, 45)}
[]

Map constructor operator - इस ऑपरेटर का उपयोग टूपल बनाने के लिए किया जाता है।

[नाम # राजा, उम्र # 30]

सुअर लैटिन - संबंधपरक संचालन

निम्न तालिका सुअर लैटिन के संबंधपरक ऑपरेटरों का वर्णन करती है।

ऑपरेटर विवरण
Loading and Storing
भार फ़ाइल सिस्टम से डेटा लोड करने के लिए (स्थानीय / एचडीएफएस) एक संबंध में।
दुकान फाइल सिस्टम (स्थानीय / एचडीएफएस) के संबंध को बचाने के लिए।
छनन
फ़िल्टर किसी रिश्ते से अवांछित पंक्तियों को हटाने के लिए।
अलग किसी संबंध से डुप्लिकेट पंक्तियाँ निकालने के लिए।
आगे, उत्पन्न डेटा के कॉलम के आधार पर डेटा परिवर्तन उत्पन्न करने के लिए।
धारा किसी बाहरी प्रोग्राम का उपयोग करके संबंध बदलना।
समूह बनाना और जुड़ना
में शामिल होने के दो या अधिक संबंधों में शामिल होने के लिए।
COGROUP डेटा को दो या अधिक संबंधों में समूहित करना।
समूह किसी एकल संबंध में डेटा को समूहीकृत करना।
पार करना दो या अधिक संबंधों के क्रॉस उत्पाद बनाने के लिए।
छंटाई
गण एक या अधिक क्षेत्रों (आरोही या अवरोही) के आधार पर एक क्रमबद्ध क्रम में संबंध की व्यवस्था करना।
आप LIMIT एक संबंध से सीमित संख्या में ट्यूपल्स प्राप्त करने के लिए।
संयोजन और विभाजन
संघ दो या दो से अधिक संबंधों को एक ही संबंध में जोड़ना।
विभाजित करें एकल संबंध को दो या दो से अधिक संबंधों में विभाजित करना।
डायग्नोस्टिक ऑपरेटर्स
ढेर कंसोल पर किसी रिलेशन की सामग्री को प्रिंट करने के लिए।
वर्णन किसी संबंध के स्कीमा का वर्णन करने के लिए।
व्याख्या किसी संबंध की गणना करने के लिए तार्किक, भौतिक या MapReduce निष्पादन योजनाओं को देखने के लिए।
उदाहरण देकर स्पष्ट करना बयानों की एक श्रृंखला के चरण-दर-चरण निष्पादन को देखने के लिए।

सामान्य तौर पर, अपाचे सुअर हाडोप के शीर्ष पर काम करता है। यह एक विश्लेषणात्मक उपकरण है जो बड़े डेटासेट का विश्लेषण करता है जो इसमें मौजूद हैंHadoop Fइले System। अपाचे सुअर का उपयोग कर डेटा का विश्लेषण करने के लिए, हमें शुरू में अपाचे सुअर में डेटा लोड करना होगा। यह अध्याय बताता है कि एचडीएफएस से अपाचे सुअर को डेटा कैसे लोड किया जाए।

HDFS की तैयारी

MapReduce मोड में, Pig HDFS से डेटा (भार) पढ़ता है और परिणामों को HDFS में वापस संग्रहीत करता है। इसलिए, हम एचडीएफएस शुरू करते हैं और एचडीएफएस में निम्नलिखित नमूना डेटा बनाते हैं।

छात्र आईडी पहला नाम उपनाम फ़ोन Faridabad
001 राजीव रेड्डी 9848022337 हैदराबाद
002 सिद्धार्थ Battacharya 9848022338 कोलकाता
003 राजेश खन्ना 9848022339 दिल्ली
004 प्रीती अग्रवाल 9848022330 पुणे
005 Trupthi Mohanthy 9848022336 Bhuwaneshwar
006 अर्चना मिश्रा 9848022335 चेन्नई

उपर्युक्त डेटासेट में व्यक्तिगत विवरण जैसे आईडी, प्रथम नाम, अंतिम नाम, फोन नंबर और शहर, छह छात्रों के होते हैं।

चरण 1: सत्यापन Hadoop

सबसे पहले, Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।

$ hadoop version

यदि आपके सिस्टम में Hadoop है, और यदि आपने PATH वैरिएबल सेट किया है, तो आपको निम्न आउटपुट मिलेंगे -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar

चरण 2: एचडीएफएस शुरू करना

के माध्यम से ब्राउज़ करें sbin Hadoop और शुरू की निर्देशिका yarn और Hadoop dfs (वितरित फ़ाइल सिस्टम) जैसा कि नीचे दिखाया गया है।

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
 
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out

चरण 3: एचडीएफएस में एक निर्देशिका बनाएं

Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। नाम के साथ एचडीएफएस में एक नई निर्देशिका बनाएंPig_Data नीचे दिखाए अनुसार आवश्यक पथ में।

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data

चरण 4: डेटा को एचडीएफएस में रखना

सुअर की इनपुट फ़ाइल में व्यक्तिगत लाइनों में प्रत्येक टपल / रिकॉर्ड होता है। और रिकॉर्ड की इकाइयां एक सीमांकक द्वारा अलग की जाती हैं (हमारे उदाहरण में हमने उपयोग किया था“,”)।

स्थानीय फ़ाइल सिस्टम में, एक इनपुट फ़ाइल बनाएँ student_data.txt नीचे दिखाए अनुसार डेटा युक्त।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

अब, स्थानीय फ़ाइल सिस्टम से एचडीएफएस का उपयोग करके फ़ाइल को स्थानांतरित करें putजैसा कि नीचे दिखाया गया है। (आप उपयोग कर सकते हैंcopyFromLocal कमांड भी।)

$ cd $HADOOP_HOME/bin $ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/

फ़ाइल का सत्यापन

आप उपयोग कर सकते हैं cat यह सत्यापित करने के लिए कि क्या फ़ाइल को एचडीएफएस में ले जाया गया है, जैसा कि नीचे दिखाया गया है।

$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt

उत्पादन

आप फ़ाइल की सामग्री को नीचे दिखाए अनुसार देख सकते हैं।

15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
  
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai

लोड ऑपरेटर

आप का उपयोग कर फ़ाइल सिस्टम (HDFS / स्थानीय) से अपाचे सुअर में डेटा लोड कर सकते हैं LOAD का संचालक Pig Latin

वाक्य - विन्यास

लोड स्टेटमेंट में "=" ऑपरेटर द्वारा विभाजित दो भाग होते हैं। बाईं ओर, हमें संबंध के नाम का उल्लेख करने की आवश्यकता हैwhere हम डेटा संग्रहीत करना चाहते हैं, और दाईं ओर, हमें परिभाषित करना होगा howहम डेटा स्टोर करते हैं। नीचे दिए गए का सिंटैक्स हैLoad ऑपरेटर।

Relation_name = LOAD 'Input file path' USING function as schema;

कहाँ पे,

  • relation_name - हमें उस संबंध का उल्लेख करना होगा जिसमें हम डेटा संग्रहीत करना चाहते हैं।

  • Input file path- हमें एचडीएफएस निर्देशिका का उल्लेख करना होगा जहां फ़ाइल संग्रहीत है। (MapReduce मोड में)

  • function - हमें Apache Pig द्वारा प्रदान किए गए लोड फ़ंक्शन के सेट से एक फ़ंक्शन चुनना होगा (BinStorage, JsonLoader, PigStorage, TextLoader)।

  • Schema- हमें डेटा के स्कीमा को परिभाषित करना होगा। हम आवश्यक स्कीमा को निम्नानुसार परिभाषित कर सकते हैं -

(column1 : data type, column2 : data type, column3 : data type);

Note- हम स्कीमा को निर्दिष्ट किए बिना डेटा लोड करते हैं। उस स्थिति में, कॉलम को $ 01, $ 02, आदि के रूप में संबोधित किया जाएगा ... (चेक)।

उदाहरण

एक उदाहरण के रूप में, आइए हम डेटा को लोड करते हैं student_data.txt नामित स्कीमा के तहत सुअर में Student का उपयोग करते हुए LOAD आदेश।

पिग ग्रंट शेल शुरू करें

सबसे पहले, लिनक्स टर्मिनल खोलें। जैसा कि नीचे दिखाया गया है MapReduce मोड में पिग ग्रंट शेल शुरू करें।

$ Pig –x mapreduce

जैसा कि नीचे दिखाया गया है, यह पिग ग्रंट शेल को शुरू करेगा।

15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType

2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
  
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
 
grunt>

लोड स्टेटमेंट निष्पादित करें

अब फाइल से डेटा लोड करें student_data.txt ग्रंट शेल में निम्न सुअर लैटिन कथन को निष्पादित करके सुअर में।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

निम्नलिखित कथन का विवरण निम्नलिखित है।

संबंध का नाम हमने स्कीमा में डेटा संग्रहीत किया है student
इनपुट फ़ाइल पथ हम फ़ाइल से डेटा पढ़ रहे हैं student_data.txt, जो HDFS के / pig_data / निर्देशिका में है।
भंडारण समारोह हमने इस्तेमाल किया है PigStorage()समारोह। यह संरचित पाठ फ़ाइलों के रूप में डेटा को लोड और संग्रहीत करता है। यह एक सीमांकक का उपयोग करता है जिसके उपयोग से एक टपल की प्रत्येक इकाई को एक पैरामीटर के रूप में अलग किया जाता है। डिफ़ॉल्ट रूप से, यह एक पैरामीटर के रूप में 't' लेता है।
योजना

हमने निम्न स्कीमा का उपयोग करके डेटा संग्रहीत किया है।

स्तंभ ईद पहला नाम उपनाम फ़ोन Faridabad
डाटा प्रकार पूर्णांक चारपाई चारपाई चारपाई चारपाई

Note - loadबयान केवल सुअर में निर्दिष्ट संबंध में डेटा लोड करेगा। के निष्पादन को सत्यापित करने के लिएLoad बयान, आप का उपयोग करने के लिए है Diagnostic Operators जिसकी चर्चा अगले अध्यायों में की गई है।

पिछले अध्याय में, हमने सीखा कि कैसे अपाचे सुअर में डेटा लोड किया जाए। आप फ़ाइल सिस्टम में लोड किए गए डेटा को उपयोग करके स्टोर कर सकते हैंstoreऑपरेटर। यह अध्याय बताता है कि अपाचे सुअर में डेटा को कैसे स्टोर किया जाएStore ऑपरेटर।

वाक्य - विन्यास

नीचे दिया गया स्टोर स्टेटमेंट का सिंटैक्स है।

STORE Relation_name INTO ' required_directory_path ' [USING function];

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

अब, रिलेशन को एचडीएफएस डायरेक्टरी में स्टोर करते हैं “/pig_Output/” जैसा की नीचे दिखाया गया।

grunt> STORE student INTO ' hdfs://localhost:9000/pig_Output/ ' USING PigStorage (',');

उत्पादन

अमल करने के बाद storeकथन, आपको निम्न आउटपुट मिलेगा। एक निर्देशिका निर्दिष्ट नाम के साथ बनाई गई है और इसमें डेटा संग्रहीत किया जाएगा।

2015-10-05 13:05:05,429 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.
MapReduceLau ncher - 100% complete
2015-10-05 13:05:05,429 [main] INFO  org.apache.pig.tools.pigstats.mapreduce.SimplePigStats - 
Script Statistics:
   
HadoopVersion    PigVersion    UserId    StartedAt             FinishedAt             Features 
2.6.0            0.15.0        Hadoop    2015-10-0 13:03:03    2015-10-05 13:05:05    UNKNOWN  
Success!  
Job Stats (time in seconds): 
JobId          Maps    Reduces    MaxMapTime    MinMapTime    AvgMapTime    MedianMapTime    
job_14459_06    1        0           n/a           n/a           n/a           n/a
MaxReduceTime    MinReduceTime    AvgReduceTime    MedianReducetime    Alias    Feature   
     0                 0                0                0             student  MAP_ONLY 
OutPut folder
hdfs://localhost:9000/pig_Output/ 
 
Input(s): Successfully read 0 records from: "hdfs://localhost:9000/pig_data/student_data.txt"  
Output(s): Successfully stored 0 records in: "hdfs://localhost:9000/pig_Output"  
Counters:
Total records written : 0
Total bytes written : 0
Spillable Memory Manager spill count : 0 
Total bags proactively spilled: 0
Total records proactively spilled: 0
  
Job DAG: job_1443519499159_0006
  
2015-10-05 13:06:06,192 [main] INFO  org.apache.pig.backend.hadoop.executionengine
.mapReduceLayer.MapReduceLau ncher - Success!

सत्यापन

आप नीचे दिखाए अनुसार संग्रहीत डेटा को सत्यापित कर सकते हैं।

चरण 1

सबसे पहले, नामित निर्देशिका में फ़ाइलों को सूचीबद्ध करें pig_output का उपयोग करते हुए ls जैसा कि नीचे दिखाया गया है।

hdfs dfs -ls 'hdfs://localhost:9000/pig_Output/'
Found 2 items
rw-r--r-   1 Hadoop supergroup          0 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/_SUCCESS
rw-r--r-   1 Hadoop supergroup        224 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/part-m-00000

आप देख सकते हैं कि निष्पादित करने के बाद दो फाइलें बनाई गई थीं store बयान।

चरण 2

का उपयोग करते हुए cat कमांड, नाम की फाइल की सामग्री को सूचीबद्ध करें part-m-00000 जैसा की नीचे दिखाया गया।

$ hdfs dfs -cat 'hdfs://localhost:9000/pig_Output/part-m-00000' 
1,Rajiv,Reddy,9848022337,Hyderabad
2,siddarth,Battacharya,9848022338,Kolkata
3,Rajesh,Khanna,9848022339,Delhi
4,Preethi,Agarwal,9848022330,Pune
5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
6,Archana,Mishra,9848022335,Chennai

loadकथन केवल Apache Pig में निर्दिष्ट संबंध में डेटा लोड करेगा। के निष्पादन को सत्यापित करने के लिएLoad बयान, आप का उपयोग करने के लिए है Diagnostic Operators। सुअर लैटिन नैदानिक ​​ऑपरेटरों के चार अलग-अलग प्रकार प्रदान करता है -

  • डंप संचालक
  • ऑपरेटर का वर्णन करें
  • स्पष्टीकरण ऑपरेटर
  • चित्रण संचालक

इस अध्याय में, हम सुअर लैटिन के डंप ऑपरेटरों पर चर्चा करेंगे।

डंप संचालक

Dumpपिग लैटिन स्टेटमेंट को चलाने और स्क्रीन पर परिणाम प्रदर्शित करने के लिए ऑपरेटर का उपयोग किया जाता है। यह आम तौर पर उद्देश्य डिबगिंग के लिए प्रयोग किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है Dump ऑपरेटर।

grunt> Dump Relation_Name

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

अब, '' '' '' '' '' '' '' '' '' '' '' ’’ ’’ ’’ ’’ के उपयोग से सम्बन्ध की सामग्री को प्रिंट करते हैं Dump operator जैसा की नीचे दिखाया गया।

grunt> Dump student

एक बार जब आप ऊपर निष्पादित करते हैं Pig Latinबयान, यह HDFS से डेटा पढ़ने के लिए MapReduce का काम शुरू करेगा। यह निम्न आउटपुट का उत्पादन करेगा।

2015-10-01 15:05:27,642 [main]
INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 
100% complete
2015-10-01 15:05:27,652 [main]
INFO  org.apache.pig.tools.pigstats.mapreduce.SimplePigStats - Script Statistics:   
HadoopVersion  PigVersion  UserId    StartedAt             FinishedAt       Features             
2.6.0          0.15.0      Hadoop  2015-10-01 15:03:11  2015-10-01 05:27     UNKNOWN
                                                
Success!  
Job Stats (time in seconds):
  
JobId           job_14459_0004
Maps                 1  
Reduces              0  
MaxMapTime          n/a    
MinMapTime          n/a
AvgMapTime          n/a 
MedianMapTime       n/a
MaxReduceTime        0
MinReduceTime        0  
AvgReduceTime        0
MedianReducetime     0
Alias             student 
Feature           MAP_ONLY        
Outputs           hdfs://localhost:9000/tmp/temp580182027/tmp757878456,

Input(s): Successfully read 0 records from: "hdfs://localhost:9000/pig_data/
student_data.txt"
  
Output(s): Successfully stored 0 records in: "hdfs://localhost:9000/tmp/temp580182027/
tmp757878456"  

Counters: Total records written : 0 Total bytes written : 0 Spillable Memory Manager 
spill count : 0Total bags proactively spilled: 0 Total records proactively spilled: 0  

Job DAG: job_1443519499159_0004
  
2015-10-01 15:06:28,403 [main]
INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLau ncher - Success!
2015-10-01 15:06:28,441 [main] INFO  org.apache.pig.data.SchemaTupleBackend - 
Key [pig.schematuple] was not set... will not generate code.
2015-10-01 15:06:28,485 [main]
INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths 
to process : 1
2015-10-01 15:06:28,485 [main]
INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths
to process : 1

(1,Rajiv,Reddy,9848022337,Hyderabad) (2,siddarth,Battacharya,9848022338,Kolkata) (3,Rajesh,Khanna,9848022339,Delhi) (4,Preethi,Agarwal,9848022330,Pune) (5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar) (6,Archana,Mishra,9848022335,Chennai)

describe ऑपरेटर का उपयोग किसी संबंध के स्कीमा को देखने के लिए किया जाता है।

वाक्य - विन्यास

का वाक्य विन्यास describe ऑपरेटर निम्नानुसार है -

grunt> Describe Relation_name

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray );

अब, हम नाम के संबंध का वर्णन करते हैं student और नीचे दिखाए अनुसार स्कीमा सत्यापित करें।

grunt> describe student;

उत्पादन

एक बार जब आप ऊपर निष्पादित करते हैं Pig Latin बयान, यह निम्नलिखित उत्पादन का उत्पादन करेगा।

grunt> student: { id: int,firstname: chararray,lastname: chararray,phone: chararray,city: chararray }

explain ऑपरेटर का उपयोग किसी संबंध की तार्किक, भौतिक और MapReduce निष्पादन योजनाओं को प्रदर्शित करने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है explain ऑपरेटर।

grunt> explain Relation_name;

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray );

अब, आइए हम छात्र के नाम का उपयोग करते हुए संबंध की व्याख्या करें explain ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> explain student;

उत्पादन

यह निम्न आउटपुट का उत्पादन करेगा।

$ explain student;

2015-10-05 11:32:43,660 [main]
2015-10-05 11:32:43,660 [main] INFO  org.apache.pig.newplan.logical.optimizer
.LogicalPlanOptimizer -
{RULES_ENABLED=[AddForEach, ColumnMapKeyPrune, ConstantCalculator,
GroupByConstParallelSetter, LimitOptimizer, LoadTypeCastInserter, MergeFilter, 
MergeForEach, PartitionFilterOptimizer, PredicatePushdownOptimizer,
PushDownForEachFlatten, PushUpFilter, SplitFilter, StreamTypeCastInserter]}  
#-----------------------------------------------
# New Logical Plan: 
#-----------------------------------------------
student: (Name: LOStore Schema:
id#31:int,firstname#32:chararray,lastname#33:chararray,phone#34:chararray,city#
35:chararray)
| 
|---student: (Name: LOForEach Schema:
id#31:int,firstname#32:chararray,lastname#33:chararray,phone#34:chararray,city#
35:chararray)
    |   |
    |   (Name: LOGenerate[false,false,false,false,false] Schema:
id#31:int,firstname#32:chararray,lastname#33:chararray,phone#34:chararray,city#
35:chararray)ColumnPrune:InputUids=[34, 35, 32, 33,
31]ColumnPrune:OutputUids=[34, 35, 32, 33, 31]
    |   |   | 
    |   |   (Name: Cast Type: int Uid: 31) 
    |   |   |     |   |   |---id:(Name: Project Type: bytearray Uid: 31 Input: 0 Column: (*))
    |   |   |     
    |   |   (Name: Cast Type: chararray Uid: 32)
    |   |   | 
    |   |   |---firstname:(Name: Project Type: bytearray Uid: 32 Input: 1
Column: (*))
    |   |   |
    |   |   (Name: Cast Type: chararray Uid: 33)
    |   |   |
    |   |   |---lastname:(Name: Project Type: bytearray Uid: 33 Input: 2
	 Column: (*))
    |   |   | 
    |   |   (Name: Cast Type: chararray Uid: 34)
    |   |   |  
    |   |   |---phone:(Name: Project Type: bytearray Uid: 34 Input: 3 Column:
(*))
    |   |   | 
    |   |   (Name: Cast Type: chararray Uid: 35)
    |   |   |  
    |   |   |---city:(Name: Project Type: bytearray Uid: 35 Input: 4 Column:
(*))
    |   | 
    |   |---(Name: LOInnerLoad[0] Schema: id#31:bytearray)
    |   |  
    |   |---(Name: LOInnerLoad[1] Schema: firstname#32:bytearray)
    |   |
    |   |---(Name: LOInnerLoad[2] Schema: lastname#33:bytearray)
    |   |
    |   |---(Name: LOInnerLoad[3] Schema: phone#34:bytearray)
    |   | 
    |   |---(Name: LOInnerLoad[4] Schema: city#35:bytearray)
    |
    |---student: (Name: LOLoad Schema: 
id#31:bytearray,firstname#32:bytearray,lastname#33:bytearray,phone#34:bytearray
,city#35:bytearray)RequiredFields:null 
#-----------------------------------------------
# Physical Plan: #-----------------------------------------------
student: Store(fakefile:org.apache.pig.builtin.PigStorage) - scope-36
| 
|---student: New For Each(false,false,false,false,false)[bag] - scope-35
    |   |
    |   Cast[int] - scope-21
    |   |
    |   |---Project[bytearray][0] - scope-20
    |   |  
    |   Cast[chararray] - scope-24
    |   |
    |   |---Project[bytearray][1] - scope-23
    |   | 
    |   Cast[chararray] - scope-27
    |   |  
    |   |---Project[bytearray][2] - scope-26 
    |   |  
    |   Cast[chararray] - scope-30 
    |   |  
    |   |---Project[bytearray][3] - scope-29
    |   |
    |   Cast[chararray] - scope-33
    |   | 
    |   |---Project[bytearray][4] - scope-32
    | 
    |---student: Load(hdfs://localhost:9000/pig_data/student_data.txt:PigStorage(',')) - scope19
2015-10-05 11:32:43,682 [main]
INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - 
File concatenation threshold: 100 optimistic? false
2015-10-05 11:32:43,684 [main]
INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOp timizer - 
MR plan size before optimization: 1 2015-10-05 11:32:43,685 [main]
INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.
MultiQueryOp timizer - MR plan size after optimization: 1 
#--------------------------------------------------
# Map Reduce Plan                                   
#--------------------------------------------------
MapReduce node scope-37
Map Plan
student: Store(fakefile:org.apache.pig.builtin.PigStorage) - scope-36
|
|---student: New For Each(false,false,false,false,false)[bag] - scope-35
    |   |
    |   Cast[int] - scope-21 
    |   |
    |   |---Project[bytearray][0] - scope-20
    |   |
    |   Cast[chararray] - scope-24
    |   |
    |   |---Project[bytearray][1] - scope-23
    |   |
    |   Cast[chararray] - scope-27
    |   | 
    |   |---Project[bytearray][2] - scope-26 
    |   | 
    |   Cast[chararray] - scope-30 
    |   |  
    |   |---Project[bytearray][3] - scope-29 
    |   | 
    |   Cast[chararray] - scope-33
    |   | 
    |   |---Project[bytearray][4] - scope-32 
    |  
    |---student:
Load(hdfs://localhost:9000/pig_data/student_data.txt:PigStorage(',')) - scope
19-------- Global sort: false
 ----------------

illustrate ऑपरेटर आपको स्टेटमेंट के क्रम के चरण-दर-चरण निष्पादन देता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है illustrate ऑपरेटर।

grunt> illustrate Relation_name;

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata 
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune 
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray );

अब, हम नीचे दिए गए अनुसार दिखाए गए छात्र के नाम का वर्णन करते हैं।

grunt> illustrate student;

उत्पादन

उपरोक्त कथन को निष्पादित करने पर, आपको निम्नलिखित आउटपुट मिलेगा।

grunt> illustrate student;

INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapOnly$M ap - Aliases
being processed per job phase (AliasName[line,offset]): M: student[1,10] C:  R:
---------------------------------------------------------------------------------------------
|student | id:int | firstname:chararray | lastname:chararray | phone:chararray | city:chararray |
--------------------------------------------------------------------------------------------- 
|        | 002    | siddarth            | Battacharya        | 9848022338      | Kolkata        |
---------------------------------------------------------------------------------------------

GROUPऑपरेटर का उपयोग डेटा को एक या अधिक संबंधों में समूहित करने के लिए किया जाता है। यह समान कुंजी वाले डेटा को एकत्र करता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है group ऑपरेटर।

grunt> Group_data = GROUP Relation_name BY age;

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai

और हमने इस फाइल को संबंध नाम के साथ Apache Pig में लोड किया है student_details जैसा की नीचे दिखाया गया।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray);

अब, हमें नीचे दिखाए गए अनुसार उम्र के संबंध में रिकॉर्ड / ट्यूपल्स को समूहित करना चाहिए।

grunt> group_data = GROUP student_details by age;

सत्यापन

संबंध सत्यापित करें group_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump group_data;

उत्पादन

फिर आपको नाम के संबंध की सामग्री प्रदर्शित करते हुए आउटपुट मिलेगा group_dataजैसा की नीचे दिखाया गया। यहाँ आप देख सकते हैं कि परिणामी स्कीमा में दो कॉलम हैं -

  • एक है age, जिसके द्वारा हमने संबंध को समूहीकृत किया है।

  • अन्य एक है bag, जिसमें टुपल्स का समूह होता है, छात्र संबंधित उम्र के साथ रिकॉर्ड करता है।

(21,{(4,Preethi,Agarwal,21,9848022330,Pune),(1,Rajiv,Reddy,21,9848022337,Hydera bad)})
(22,{(3,Rajesh,Khanna,22,9848022339,Delhi),(2,siddarth,Battacharya,22,984802233 8,Kolkata)})
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)})
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)})

आप डेटा का उपयोग करके समूहीकृत करने के बाद तालिका का स्कीमा देख सकते हैं describe जैसा कि नीचे दिखाया गया है।

grunt> Describe group_data;
  
group_data: {group: int,student_details: {(id: int,firstname: chararray,
               lastname: chararray,age: int,phone: chararray,city: chararray)}}

उसी तरह, आप स्कीमा का नमूना उदाहरण का उपयोग करके प्राप्त कर सकते हैं illustrate जैसा कि नीचे दिखाया गया है।

$ Illustrate group_data;

यह निम्नलिखित उत्पादन का उत्पादन करेगा -

------------------------------------------------------------------------------------------------- 
|group_data|  group:int | student_details:bag{:tuple(id:int,firstname:chararray,lastname:chararray,age:int,phone:chararray,city:chararray)}|
------------------------------------------------------------------------------------------------- 
|          |     21     | { 4, Preethi, Agarwal, 21, 9848022330, Pune), (1, Rajiv, Reddy, 21, 9848022337, Hyderabad)}| 
|          |     2      | {(2,siddarth,Battacharya,22,9848022338,Kolkata),(003,Rajesh,Khanna,22,9848022339,Delhi)}| 
-------------------------------------------------------------------------------------------------

एकाधिक कॉलम द्वारा समूहीकरण

नीचे दिए गए अनुसार हमें उम्र और शहर के संबंध बताएं।

grunt> group_multiple = GROUP student_details by (age, city);

आप नाम के संबंध की सामग्री को सत्यापित कर सकते हैं group_multiple नीचे दिखाए अनुसार डंप ऑपरेटर का उपयोग करना।

grunt> Dump group_multiple; 
  
((21,Pune),{(4,Preethi,Agarwal,21,9848022330,Pune)})
((21,Hyderabad),{(1,Rajiv,Reddy,21,9848022337,Hyderabad)})
((22,Delhi),{(3,Rajesh,Khanna,22,9848022339,Delhi)})
((22,Kolkata),{(2,siddarth,Battacharya,22,9848022338,Kolkata)})
((23,Chennai),{(6,Archana,Mishra,23,9848022335,Chennai)})
((23,Bhuwaneshwar),{(5,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar)})
((24,Chennai),{(8,Bharathi,Nambiayar,24,9848022333,Chennai)})
(24,trivendram),{(7,Komal,Nayak,24,9848022334,trivendram)})

समूह सभी

आप नीचे दिखाए गए अनुसार सभी कॉलमों से एक संबंध जोड़ सकते हैं।

grunt> group_all = GROUP student_details All;

अब, संबंध की सामग्री को सत्यापित करें group_all जैसा की नीचे दिखाया गया।

grunt> Dump group_all;  
  
(all,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334 ,trivendram), 
(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336,Bhuw aneshwar), 
(4,Preethi,Agarwal,21,9848022330,Pune),(3,Rajesh,Khanna,22,9848022339,Delhi), 
(2,siddarth,Battacharya,22,9848022338,Kolkata),(1,Rajiv,Reddy,21,9848022337,Hyd erabad)})

COGROUPऑपरेटर उसी तरह से काम करता है जैसे ग्रुप ऑपरेटर। दोनों ऑपरेटरों के बीच एकमात्र अंतर यह है किgroup ऑपरेटर आमतौर पर एक संबंध के साथ प्रयोग किया जाता है, जबकि cogroup ऑपरेटर का उपयोग दो या अधिक संबंधों वाले बयानों में किया जाता है।

Cogroup का उपयोग करके दो संबंधों को समूहीकृत करना

मान लें कि हमारे पास दो फाइलें हैं student_details.txt तथा employee_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai

employee_details.txt

001,Robin,22,newyork 
002,BOB,23,Kolkata 
003,Maya,23,Tokyo 
004,Sara,25,London 
005,David,23,Bhuwaneshwar 
006,Maggy,22,Chennai

और हमने इन फ़ाइलों को संबंधित नामों के साथ सुअर में लोड किया है student_details तथा employee_details क्रमशः, जैसा कि नीचे दिखाया गया है।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray); 
  
grunt> employee_details = LOAD 'hdfs://localhost:9000/pig_data/employee_details.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, city:chararray);

अब, हम संबंधों के रिकॉर्ड / ट्यूपल्स को समूहित करते हैं student_details तथा employee_details कुंजी उम्र के साथ, जैसा कि नीचे दिखाया गया है।

grunt> cogroup_data = COGROUP student_details by age, employee_details by age;

सत्यापन

संबंध सत्यापित करें cogroup_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump cogroup_data;

उत्पादन

यह निम्नलिखित आउटपुट का उत्पादन करेगा, नाम के संबंध की सामग्री प्रदर्शित करेगा cogroup_data जैसा की नीचे दिखाया गया।

(21,{(4,Preethi,Agarwal,21,9848022330,Pune), (1,Rajiv,Reddy,21,9848022337,Hyderabad)}, 
   {    })  
(22,{ (3,Rajesh,Khanna,22,9848022339,Delhi), (2,siddarth,Battacharya,22,9848022338,Kolkata) },  
   { (6,Maggy,22,Chennai),(1,Robin,22,newyork) })  
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)}, 
   {(5,David,23,Bhuwaneshwar),(3,Maya,23,Tokyo),(2,BOB,23,Kolkata)}) 
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)}, 
   { })  
(25,{   }, 
   {(4,Sara,25,London)})

cogroup ऑपरेटर उम्र के अनुसार प्रत्येक संबंध से ट्यूपल्स को समूहित करता है जहां प्रत्येक समूह एक विशेष आयु मान दर्शाते हैं।

उदाहरण के लिए, यदि हम परिणाम के 1 टपल पर विचार करते हैं, तो यह 21 वर्ष की आयु तक समूहीकृत होता है। और इसमें दो बैग होते हैं -

  • पहला बैग पहले संबंध से सभी tuples रखती है (student_details इस मामले में) 21 वर्ष की आयु, और

  • दूसरे बैग में दूसरे संबंध से सभी ट्यूपल हैं (employee_details इस मामले में) 21 वर्ष की आयु के बाद।

यदि किसी संबंध में 21 वर्ष की आयु के संबंध नहीं हैं, तो यह एक खाली बैग देता है।

JOINऑपरेटर का उपयोग दो या अधिक संबंधों के रिकॉर्ड को संयोजित करने के लिए किया जाता है। ज्वाइन ऑपरेशन करते समय, हम प्रत्येक संबंध से एक (या एक समूह) टपल की घोषणा करते हैं, कुंजी के रूप में। जब ये चाबियां मेल खाती हैं, तो दो विशेष ट्यूपल्स का मिलान किया जाता है, अन्यथा रिकॉर्ड गिरा दिए जाते हैं। जॉइन निम्न प्रकार के हो सकते हैं -

  • Self-join
  • Inner-join
  • आउटर-जॉइन - लेफ्ट जॉइन, राइट जॉइन और फुल जॉइन

यह अध्याय उदाहरणों के साथ बताता है कि पिग लैटिन में शामिल ऑपरेटर का उपयोग कैसे करें। मान लें कि हमारे पास दो फाइलें हैंcustomers.txt तथा orders.txt में /pig_data/ नीचे दिखाए गए अनुसार HDFS की निर्देशिका।

customers.txt

1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00 
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00

orders.txt

102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060

और हमने इन दो फाइलों को संबंधों के साथ पिग में लोड किया है customers तथा orders जैसा की नीचे दिखाया गया।

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
   as (oid:int, date:chararray, customer_id:int, amount:int);

आइए अब हम इन दोनों संबंधों पर विभिन्न जॉइन ऑपरेशन्स करें।

स्व - जुड़ना

Self-join अपने आप से एक तालिका में शामिल होने के लिए उपयोग किया जाता है जैसे कि तालिका दो संबंध थे, अस्थायी रूप से कम से कम एक संबंध का नाम बदलकर।

आमतौर पर, अपाचे सुअर में, स्व-शामिल होने के लिए, हम अलग-अलग उपनाम (नाम) के तहत एक ही डेटा को कई बार लोड करेंगे। इसलिए हमें फ़ाइल की सामग्री लोड करने देंcustomers.txt नीचे दिखाए गए अनुसार दो तालिकाओं के रूप में।

grunt> customers1 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> customers2 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);

वाक्य - विन्यास

नीचे दिए गए प्रदर्शन का वाक्यविन्यास है self-join ऑपरेशन का उपयोग कर JOIN ऑपरेटर।

grunt> Relation3_name = JOIN Relation1_name BY key, Relation2_name BY key ;

उदाहरण

हम प्रदर्शन करते हैं self-join संबंध पर संचालन customers, दो संबंधों में शामिल होने से customers1 तथा customers2 जैसा की नीचे दिखाया गया।

grunt> customers3 = JOIN customers1 BY id, customers2 BY id;

सत्यापन

संबंध सत्यापित करें customers3 का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump customers3;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा customers

(1,Ramesh,32,Ahmedabad,2000,1,Ramesh,32,Ahmedabad,2000)
(2,Khilan,25,Delhi,1500,2,Khilan,25,Delhi,1500)
(3,kaushik,23,Kota,2000,3,kaushik,23,Kota,2000)
(4,Chaitali,25,Mumbai,6500,4,Chaitali,25,Mumbai,6500)
(5,Hardik,27,Bhopal,8500,5,Hardik,27,Bhopal,8500)
(6,Komal,22,MP,4500,6,Komal,22,MP,4500)
(7,Muffy,24,Indore,10000,7,Muffy,24,Indore,10000)

आंतरिक रूप से जुड़ा

Inner Joinअक्सर उपयोग किया जाता है; यह भी कहा जाता हैequijoin। जब दोनों तालिकाओं में मैच होता है, तो एक आंतरिक जुड़ाव पंक्तियों को जोड़ता है।

यह दो संबंध (ए और बी) के स्तंभ मानों को जोड़कर एक नया संबंध बनाता है, जो कि संयुक्त विधेय पर आधारित है। क्वेरी बी के प्रत्येक पंक्ति के साथ A की प्रत्येक पंक्ति की तुलना उन सभी जोड़ियों को खोजने के लिए करती है जो जॉइन-प्रेडिकेट को संतुष्ट करते हैं। जब जॉइन-प्रेडिकेट संतुष्ट हो जाता है, तो ए और बी की पंक्तियों के प्रत्येक मिलान किए गए जोड़े के लिए कॉलम वैल्यू को एक परिणाम पंक्ति में जोड़ दिया जाता है।

वाक्य - विन्यास

यहाँ प्रदर्शन का वाक्य विन्यास है inner join ऑपरेशन का उपयोग कर JOIN ऑपरेटर।

grunt> result = JOIN relation1 BY columnname, relation2 BY columnname;

उदाहरण

हम प्रदर्शन करते हैं inner join दो संबंधों पर संचालन customers तथा orders जैसा की नीचे दिखाया गया।

grunt> coustomer_orders = JOIN customers BY id, orders BY customer_id;

सत्यापन

संबंध सत्यापित करें coustomer_orders का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump coustomer_orders;

उत्पादन

आपको निम्न आउटपुट मिलेंगे जो नाम के संबंध की सामग्री होगी coustomer_orders

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

Note -

बाहरी जुड़ाव : भीतरी जुड़ाव के विपरीत,outer joinकम से कम संबंधों में से सभी पंक्तियों को लौटाता है। एक बाहरी जुड़ाव ऑपरेशन तीन तरीकों से किया जाता है -

  • बाईं ओर का बाहरी जोड़
  • सही बाहरी जुड़ना
  • पूर्ण बाहरी जुड़ना

बाईं ओर का बाहरी जोड़

left outer Join ऑपरेशन बाईं पंक्ति से सभी पंक्तियों को लौटाता है, भले ही सही संबंध में कोई मेल न हो।

वाक्य - विन्यास

नीचे दिए गए प्रदर्शन का वाक्यविन्यास है left outer join ऑपरेशन का उपयोग कर JOIN ऑपरेटर।

grunt> Relation3_name = JOIN Relation1_name BY id LEFT OUTER, Relation2_name BY customer_id;

उदाहरण

हमें नीचे दिखाए गए अनुसार दो संबंध ग्राहकों और आदेशों पर बाएं बाहरी जुड़ाव ऑपरेशन करने दें।

grunt> outer_left = JOIN customers BY id LEFT OUTER, orders BY customer_id;

सत्यापन

संबंध सत्यापित करें outer_left का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump outer_left;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा outer_left

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

राइट आउटर जॉइन करें

right outer join ऑपरेशन सही तालिका से सभी पंक्तियों को लौटाता है, भले ही बाईं तालिका में कोई मिलान न हो।

वाक्य - विन्यास

नीचे दिए गए प्रदर्शन का वाक्यविन्यास है right outer join ऑपरेशन का उपयोग कर JOIN ऑपरेटर।

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

उदाहरण

हम प्रदर्शन करते हैं right outer join दो संबंधों पर संचालन customers तथा orders जैसा की नीचे दिखाया गया।

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

सत्यापन

संबंध सत्यापित करें outer_right का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump outer_right

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा outer_right

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

पूर्ण बाहरी सम्मिलित हों

full outer join जब किसी एक संबंध में मैच होता है तो ऑपरेशन की पंक्तियाँ लौटती हैं।

वाक्य - विन्यास

नीचे दिए गए प्रदर्शन का वाक्यविन्यास है full outer join का उपयोग करते हुए JOIN ऑपरेटर।

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

उदाहरण

हम प्रदर्शन करते हैं full outer join दो संबंधों पर संचालन customers तथा orders जैसा की नीचे दिखाया गया।

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

सत्यापन

संबंध सत्यापित करें outer_full का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grun> Dump outer_full;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा outer_full

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

एकाधिक कुंजी का उपयोग करना

हम कई कुंजियों का उपयोग करके JOIN ऑपरेशन कर सकते हैं।

वाक्य - विन्यास

यहां बताया गया है कि आप कई कुंजियों का उपयोग करके दो टेबलों पर एक JOIN ऑपरेशन कैसे कर सकते हैं।

grunt> Relation3_name = JOIN Relation2_name BY (key1, key2), Relation3_name BY (key1, key2);

मान लें कि हमारे पास दो फाइलें हैं employee.txt तथा employee_contact.txt में /pig_data/ नीचे दिखाए गए अनुसार HDFS की निर्देशिका।

employee.txt

001,Rajiv,Reddy,21,programmer,003
002,siddarth,Battacharya,22,programmer,003
003,Rajesh,Khanna,22,programmer,003
004,Preethi,Agarwal,21,programmer,003
005,Trupthi,Mohanthy,23,programmer,003
006,Archana,Mishra,23,programmer,003
007,Komal,Nayak,24,teamlead,002
008,Bharathi,Nambiayar,24,manager,001

employee_contact.txt

001,9848022337,[email protected],Hyderabad,003
002,9848022338,[email protected],Kolkata,003
003,9848022339,[email protected],Delhi,003
004,9848022330,[email protected],Pune,003
005,9848022336,[email protected],Bhuwaneshwar,003
006,9848022335,[email protected],Chennai,003
007,9848022334,[email protected],trivendram,002
008,9848022333,[email protected],Chennai,001

और हमने इन दो फाइलों को संबंधों के साथ सुअर में लोड किया है employee तथा employee_contact जैसा की नीचे दिखाया गया।

grunt> employee = LOAD 'hdfs://localhost:9000/pig_data/employee.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, designation:chararray, jobid:int);
  
grunt> employee_contact = LOAD 'hdfs://localhost:9000/pig_data/employee_contact.txt' USING PigStorage(',') 
   as (id:int, phone:chararray, email:chararray, city:chararray, jobid:int);

अब, आइए इन दो संबंधों की सामग्री का उपयोग करते हुए जुड़ते हैं JOIN ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> emp = JOIN employee BY (id,jobid), employee_contact BY (id,jobid);

सत्यापन

संबंध सत्यापित करें emp का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump emp;

उत्पादन

यह निम्नलिखित आउटपुट का उत्पादन करेगा, नाम के संबंध की सामग्री प्रदर्शित करेगा emp जैसा की नीचे दिखाया गया।

(1,Rajiv,Reddy,21,programmer,113,1,9848022337,[email protected],Hyderabad,113)
(2,siddarth,Battacharya,22,programmer,113,2,9848022338,[email protected],Kolka ta,113)  
(3,Rajesh,Khanna,22,programmer,113,3,9848022339,[email protected],Delhi,113)  
(4,Preethi,Agarwal,21,programmer,113,4,9848022330,[email protected],Pune,113)  
(5,Trupthi,Mohanthy,23,programmer,113,5,9848022336,[email protected],Bhuwaneshw ar,113)  
(6,Archana,Mishra,23,programmer,113,6,9848022335,[email protected],Chennai,113)  
(7,Komal,Nayak,24,teamlead,112,7,9848022334,[email protected],trivendram,112)  
(8,Bharathi,Nambiayar,24,manager,111,8,9848022333,[email protected],Chennai,111)

CROSSऑपरेटर दो या अधिक संबंधों के क्रॉस-उत्पाद की गणना करता है। यह अध्याय उदाहरण के साथ बताता है कि सुअर लैटिन में क्रॉस ऑपरेटर का उपयोग कैसे करें।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है CROSS ऑपरेटर।

grunt> Relation3_name = CROSS Relation1_name, Relation2_name;

उदाहरण

मान लें कि हमारे पास दो फाइलें हैं customers.txt तथा orders.txt में /pig_data/ नीचे दिखाए गए अनुसार HDFS की निर्देशिका।

customers.txt

1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00

orders.txt

102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060

और हमने इन दो फाइलों को संबंधों के साथ पिग में लोड किया है customers तथा orders जैसा की नीचे दिखाया गया।

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
   as (oid:int, date:chararray, customer_id:int, amount:int);

आइए अब हम इन दो संबंधों के क्रॉस-प्रोडक्ट का उपयोग करते हैं cross इन दो संबंधों पर ऑपरेटर नीचे दिखाए गए अनुसार।

grunt> cross_data = CROSS customers, orders;

सत्यापन

संबंध सत्यापित करें cross_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump cross_data;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा cross_data

(7,Muffy,24,Indore,10000,103,2008-05-20 00:00:00,4,2060) 
(7,Muffy,24,Indore,10000,101,2009-11-20 00:00:00,2,1560) 
(7,Muffy,24,Indore,10000,100,2009-10-08 00:00:00,3,1500) 
(7,Muffy,24,Indore,10000,102,2009-10-08 00:00:00,3,3000) 
(6,Komal,22,MP,4500,103,2008-05-20 00:00:00,4,2060) 
(6,Komal,22,MP,4500,101,2009-11-20 00:00:00,2,1560) 
(6,Komal,22,MP,4500,100,2009-10-08 00:00:00,3,1500) 
(6,Komal,22,MP,4500,102,2009-10-08 00:00:00,3,3000) 
(5,Hardik,27,Bhopal,8500,103,2008-05-20 00:00:00,4,2060) 
(5,Hardik,27,Bhopal,8500,101,2009-11-20 00:00:00,2,1560) 
(5,Hardik,27,Bhopal,8500,100,2009-10-08 00:00:00,3,1500) 
(5,Hardik,27,Bhopal,8500,102,2009-10-08 00:00:00,3,3000) 
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060) 
(4,Chaitali,25,Mumbai,6500,101,2009-20 00:00:00,4,2060) 
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560) 
(2,Khilan,25,Delhi,1500,100,2009-10-08 00:00:00,3,1500) 
(2,Khilan,25,Delhi,1500,102,2009-10-08 00:00:00,3,3000) 
(1,Ramesh,32,Ahmedabad,2000,103,2008-05-20 00:00:00,4,2060) 
(1,Ramesh,32,Ahmedabad,2000,101,2009-11-20 00:00:00,2,1560) 
(1,Ramesh,32,Ahmedabad,2000,100,2009-10-08 00:00:00,3,1500) 
(1,Ramesh,32,Ahmedabad,2000,102,2009-10-08 00:00:00,3,3000)-11-20 00:00:00,2,1560) 
(4,Chaitali,25,Mumbai,6500,100,2009-10-08 00:00:00,3,1500) 
(4,Chaitali,25,Mumbai,6500,102,2009-10-08 00:00:00,3,3000) 
(3,kaushik,23,Kota,2000,103,2008-05-20 00:00:00,4,2060) 
(3,kaushik,23,Kota,2000,101,2009-11-20 00:00:00,2,1560) 
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500) 
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000) 
(2,Khilan,25,Delhi,1500,103,2008-05-20 00:00:00,4,2060) 
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560) 
(2,Khilan,25,Delhi,1500,100,2009-10-08 00:00:00,3,1500)
(2,Khilan,25,Delhi,1500,102,2009-10-08 00:00:00,3,3000) 
(1,Ramesh,32,Ahmedabad,2000,103,2008-05-20 00:00:00,4,2060) 
(1,Ramesh,32,Ahmedabad,2000,101,2009-11-20 00:00:00,2,1560) 
(1,Ramesh,32,Ahmedabad,2000,100,2009-10-08 00:00:00,3,1500) 
(1,Ramesh,32,Ahmedabad,2000,102,2009-10-08 00:00:00,3,3000)

UNIONपिग लैटिन के ऑपरेटर का उपयोग दो संबंधों की सामग्री को मर्ज करने के लिए किया जाता है। दो संबंधों पर UNION ऑपरेशन करने के लिए, उनके कॉलम और डोमेन समान होने चाहिए।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है UNION ऑपरेटर।

grunt> Relation_name3 = UNION Relation_name1, Relation_name2;

उदाहरण

मान लें कि हमारे पास दो फाइलें हैं student_data1.txt तथा student_data2.txt में /pig_data/ नीचे दिखाए गए अनुसार HDFS की निर्देशिका।

Student_data1.txt

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

Student_data2.txt

7,Komal,Nayak,9848022334,trivendram.
8,Bharathi,Nambiayar,9848022333,Chennai.

और हमने इन दो फाइलों को संबंधों के साथ पिग में लोड किया है student1 तथा student2 जैसा की नीचे दिखाया गया।

grunt> student1 = LOAD 'hdfs://localhost:9000/pig_data/student_data1.txt' USING PigStorage(',') 
   as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray); 
 
grunt> student2 = LOAD 'hdfs://localhost:9000/pig_data/student_data2.txt' USING PigStorage(',') 
   as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray);

आइए अब इन दो संबंधों की सामग्री का उपयोग करके विलय करते हैं UNION ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> student = UNION student1, student2;

सत्यापन

संबंध सत्यापित करें student का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump student;

उत्पादन

यह निम्न आउटपुट को प्रदर्शित करेगा, संबंध की सामग्री को प्रदर्शित करेगा student

(1,Rajiv,Reddy,9848022337,Hyderabad) (2,siddarth,Battacharya,9848022338,Kolkata)
(3,Rajesh,Khanna,9848022339,Delhi)
(4,Preethi,Agarwal,9848022330,Pune) 
(5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar)
(6,Archana,Mishra,9848022335,Chennai) 
(7,Komal,Nayak,9848022334,trivendram) 
(8,Bharathi,Nambiayar,9848022333,Chennai)

SPLIT ऑपरेटर का उपयोग किसी संबंध को दो या अधिक संबंधों में विभाजित करने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है SPLIT ऑपरेटर।

grunt> SPLIT Relation1_name INTO Relation2_name IF (condition1), Relation2_name (condition2),

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi 
004,Preethi,Agarwal,21,9848022330,Pune 
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar 
006,Archana,Mishra,23,9848022335,Chennai 
007,Komal,Nayak,24,9848022334,trivendram 
008,Bharathi,Nambiayar,24,9848022333,Chennai

और हमने इस फ़ाइल को संबंध नाम के साथ सुअर में लोड किया है student_details जैसा की नीचे दिखाया गया।

student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray);

आइए अब हम संबंध को दो में विभाजित करते हैं, एक 23 से कम आयु के कर्मचारियों को सूचीबद्ध करता है, और दूसरा उन कर्मचारियों को सूचीबद्ध करता है जिनकी आयु 22 से 25 के बीच है।

SPLIT student_details into student_details1 if age<23, student_details2 if (22<age and age>25);

सत्यापन

संबंधों को सत्यापित करें student_details1 तथा student_details2 का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump student_details1;  

grunt> Dump student_details2;

उत्पादन

यह संबंधों की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा student_details1 तथा student_details2 क्रमशः।

grunt> Dump student_details1; 
(1,Rajiv,Reddy,21,9848022337,Hyderabad) 
(2,siddarth,Battacharya,22,9848022338,Kolkata)
(3,Rajesh,Khanna,22,9848022339,Delhi) 
(4,Preethi,Agarwal,21,9848022330,Pune)
  
grunt> Dump student_details2; 
(5,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar) 
(6,Archana,Mishra,23,9848022335,Chennai) 
(7,Komal,Nayak,24,9848022334,trivendram) 
(8,Bharathi,Nambiayar,24,9848022333,Chennai)

FILTER ऑपरेटर का उपयोग किसी शर्त पर आधारित संबंध से आवश्यक ट्यूपल्स का चयन करने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है FILTER ऑपरेटर।

grunt> Relation2_name = FILTER Relation1_name BY (condition);

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi 
004,Preethi,Agarwal,21,9848022330,Pune 
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar 
006,Archana,Mishra,23,9848022335,Chennai 
007,Komal,Nayak,24,9848022334,trivendram 
008,Bharathi,Nambiayar,24,9848022333,Chennai

और हमने इस फ़ाइल को संबंध नाम के साथ सुअर में लोड किया है student_details जैसा की नीचे दिखाया गया।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray);

आइए अब हम फ़िल्टर ऑपरेटर का उपयोग उन छात्रों का विवरण प्राप्त करने के लिए करते हैं जो चेन्नई शहर से संबंध रखते हैं।

filter_data = FILTER student_details BY city == 'Chennai';

सत्यापन

संबंध सत्यापित करें filter_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump filter_data;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा filter_data निम्नलिखित नुसार।

(6,Archana,Mishra,23,9848022335,Chennai)
(8,Bharathi,Nambiayar,24,9848022333,Chennai)

DISTINCT ऑपरेटर का उपयोग किसी संबंध से अनावश्यक (डुप्लिकेट) ट्यूपल्स को निकालने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है DISTINCT ऑपरेटर।

grunt> Relation_name2 = DISTINCT Relatin_name1;

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata 
002,siddarth,Battacharya,9848022338,Kolkata 
003,Rajesh,Khanna,9848022339,Delhi 
003,Rajesh,Khanna,9848022339,Delhi 
004,Preethi,Agarwal,9848022330,Pune 
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai 
006,Archana,Mishra,9848022335,Chennai

और हमने इस फ़ाइल को संबंध नाम के साथ सुअर में लोड किया है student_details जैसा की नीचे दिखाया गया।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',') 
   as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray);

आइए अब हम नामांकित संबंध से निरर्थक (डुप्लिकेट) tuples को हटा दें student_details का उपयोग करते हुए DISTINCT ऑपरेटर, और इसे नामित एक अन्य संबंध के रूप में संग्रहीत करता है distinct_data जैसा की नीचे दिखाया गया।

grunt> distinct_data = DISTINCT student_details;

सत्यापन

संबंध सत्यापित करें distinct_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump distinct_data;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा distinct_data निम्नलिखित नुसार।

(1,Rajiv,Reddy,9848022337,Hyderabad)
(2,siddarth,Battacharya,9848022338,Kolkata) 
(3,Rajesh,Khanna,9848022339,Delhi) 
(4,Preethi,Agarwal,9848022330,Pune) 
(5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar)
(6,Archana,Mishra,9848022335,Chennai)

FOREACH ऑपरेटर का उपयोग स्तंभ डेटा के आधार पर निर्दिष्ट डेटा परिवर्तन उत्पन्न करने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है FOREACH ऑपरेटर।

grunt> Relation_name2 = FOREACH Relatin_name1 GENERATE (required data);

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi 
004,Preethi,Agarwal,21,9848022330,Pune 
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar 
006,Archana,Mishra,23,9848022335,Chennai 
007,Komal,Nayak,24,9848022334,trivendram 
008,Bharathi,Nambiayar,24,9848022333,Chennai

और हमने इस फ़ाइल को संबंध नाम के साथ सुअर में लोड किया है student_details जैसा की नीचे दिखाया गया।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray,age:int, phone:chararray, city:chararray);

आइए अब हम प्रत्येक छात्र की आईडी, आयु और शहर के मूल्यों को संबंध से प्राप्त करते हैं student_details और इसे नाम के किसी अन्य संबंध में संग्रहीत करें foreach_data का उपयोग करते हुए foreach ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> foreach_data = FOREACH student_details GENERATE id,age,city;

सत्यापन

संबंध सत्यापित करें foreach_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump foreach_data;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा foreach_data

(1,21,Hyderabad)
(2,22,Kolkata)
(3,22,Delhi)
(4,21,Pune) 
(5,23,Bhuwaneshwar)
(6,23,Chennai) 
(7,24,trivendram)
(8,24,Chennai)

ORDER BY ऑपरेटर का उपयोग एक या एक से अधिक क्षेत्रों के आधार पर क्रमबद्ध संबंध में सामग्री को प्रदर्शित करने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है ORDER BY ऑपरेटर।

grunt> Relation_name2 = ORDER Relatin_name1 BY (ASC|DESC);

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi 
004,Preethi,Agarwal,21,9848022330,Pune 
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar 
006,Archana,Mishra,23,9848022335,Chennai 
007,Komal,Nayak,24,9848022334,trivendram 
008,Bharathi,Nambiayar,24,9848022333,Chennai

और हमने इस फ़ाइल को संबंध नाम के साथ सुअर में लोड किया है student_details जैसा की नीचे दिखाया गया।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray,age:int, phone:chararray, city:chararray);

आइए अब हम छात्र की उम्र के आधार पर एक अवरोही क्रम में संबंध को क्रमबद्ध करते हैं और इसे नाम के दूसरे संबंध में संग्रहीत करते हैं order_by_data का उपयोग करते हुए ORDER BY ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> order_by_data = ORDER student_details BY age DESC;

सत्यापन

संबंध सत्यापित करें order_by_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump order_by_data;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा order_by_data

(8,Bharathi,Nambiayar,24,9848022333,Chennai)
(7,Komal,Nayak,24,9848022334,trivendram)
(6,Archana,Mishra,23,9848022335,Chennai) 
(5,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar)
(3,Rajesh,Khanna,22,9848022339,Delhi) 
(2,siddarth,Battacharya,22,9848022338,Kolkata)
(4,Preethi,Agarwal,21,9848022330,Pune) 
(1,Rajiv,Reddy,21,9848022337,Hyderabad)

LIMIT एक संबंध से सीमित संख्या में ट्यूपल्स प्राप्त करने के लिए ऑपरेटर का उपयोग किया जाता है।

वाक्य - विन्यास

नीचे दिए गए का सिंटैक्स है LIMIT ऑपरेटर।

grunt> Result = LIMIT Relation_name required number of tuples;

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है जिसका नाम है student_details.txt में HDFS निर्देशिका /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi 
004,Preethi,Agarwal,21,9848022330,Pune 
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar 
006,Archana,Mishra,23,9848022335,Chennai 
007,Komal,Nayak,24,9848022334,trivendram 
008,Bharathi,Nambiayar,24,9848022333,Chennai

और हमने इस फ़ाइल को संबंध नाम के साथ सुअर में लोड किया है student_details जैसा की नीचे दिखाया गया।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray,age:int, phone:chararray, city:chararray);

अब, छात्र की उम्र के आधार पर अवरोही क्रम में संबंध को क्रमबद्ध करें और इसे नाम के किसी अन्य संबंध में संग्रहीत करें limit_data का उपयोग करते हुए ORDER BY ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> limit_data = LIMIT student_details 4;

सत्यापन

संबंध सत्यापित करें limit_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump limit_data;

उत्पादन

यह संबंध की सामग्री को प्रदर्शित करते हुए, निम्न आउटपुट का उत्पादन करेगा limit_data निम्नलिखित नुसार।

(1,Rajiv,Reddy,21,9848022337,Hyderabad) 
(2,siddarth,Battacharya,22,9848022338,Kolkata) 
(3,Rajesh,Khanna,22,9848022339,Delhi) 
(4,Preethi,Agarwal,21,9848022330,Pune)

Apache Pig विभिन्न अंतर्निहित कार्यों को प्रदान करता है eval, load, store, math, string, bag तथा tuple कार्य करता है।

एवरल फंक्शंस

नीचे दी गई सूची है eval Apache Pig द्वारा प्रदान किए गए कार्य।

एस.एन. समारोह विवरण
1 औसत ()

एक बैग के भीतर संख्यात्मक मूल्यों के औसत की गणना करने के लिए।

2 BagToString ()

एक स्ट्रिंग में एक बैग के तत्वों को समतल करने के लिए। समवर्ती करते हुए, हम इन मूल्यों (वैकल्पिक) के बीच एक सीमांकक रख सकते हैं।

3 Concat ()

एक ही प्रकार के दो या दो से अधिक भावों को समेटने के लिए।

4 COUNT ()

एक थैले में टुपल्स की संख्या की गिनती करते हुए, एक बैग में तत्वों की संख्या प्राप्त करने के लिए।

5 COUNT_STAR ()

यह के समान है COUNT()समारोह। इसका उपयोग बैग में तत्वों की संख्या प्राप्त करने के लिए किया जाता है।

6 DIFF ()

एक टपल में दो बैग (फ़ील्ड) की तुलना करने के लिए।

7 खाली है()

यह जांचने के लिए कि कोई बैग या नक्शा खाली है या नहीं।

8 मैक्स ()

एकल-स्तंभ बैग में एक स्तंभ (संख्यात्मक मान या चार्ट) के लिए उच्चतम मूल्य की गणना करने के लिए।

9 मिन ()

एकल-स्तंभ बैग में एक निश्चित स्तंभ के लिए न्यूनतम (सबसे कम) मान (संख्यात्मक या वर्णक्रम) प्राप्त करना।

10 PluckTuple ()

सुअर लैटिन का उपयोग करना PluckTuple() फ़ंक्शन, हम एक स्ट्रिंग को परिभाषित कर सकते हैं उपसर्ग और दिए गए उपसर्ग के साथ शुरू होने वाले संबंध में कॉलम को फ़िल्टर करें।

1 1 आकार ()

किसी भी सुअर डेटा प्रकार के आधार पर तत्वों की संख्या की गणना करने के लिए।

12 घटाना ()

दो बैग घटाना। यह इनपुट के रूप में दो बैग लेता है और एक बैग लौटाता है जिसमें पहला बैग होता है जो दूसरे बैग में नहीं होता है।

13 SUM ()

एकल-स्तंभ बैग में स्तंभ के संख्यात्मक मानों की कुल प्राप्त करने के लिए।

14 TOKENIZE ()

एक एकल ट्यूपल में एक स्ट्रिंग (जिसमें शब्दों का एक समूह होता है) को विभाजित करने के लिए और एक बैग लौटाएं जिसमें विभाजन ऑपरेशन का आउटपुट होता है।

Load तथा StoreApache Pig में फ़ंक्शंस का उपयोग यह निर्धारित करने के लिए किया जाता है कि डेटा कैसे जाता है विज्ञापन Pig से बाहर आता है। इन कार्यों का उपयोग लोड और स्टोर संचालकों के साथ किया जाता है। नीचे सुअर में उपलब्ध लोड और स्टोर फ़ंक्शन की सूची दी गई है।

एस.एन. समारोह विवरण
1 PigStorage ()

संरचित फ़ाइलों को लोड करने और संग्रहीत करने के लिए।

2 TextLoader ()

सुअर में असंरचित डेटा लोड करने के लिए।

3 BinStorage ()

मशीन पठनीय प्रारूप का उपयोग करके डेटा को सुअर में लोड और संग्रहीत करने के लिए।

4 सम्भालना संपीड़न

सुअर लैटिन में, हम संकुचित डेटा को लोड और स्टोर कर सकते हैं।

नीचे दिए गए बैग और टपल कार्यों की सूची है।

एस.एन. समारोह विवरण
1 भीक मांगना()

दो या अधिक अभिव्यक्तियों को एक बैग में बदलने के लिए।

2 ऊपर()

शीर्ष पाने के लिए N एक संबंध के tuples।

3 TOTUPLE ()

एक या एक से अधिक भावों को एक टुपल में बदलने के लिए।

4 नक्शा()

मुख्य-मूल्य जोड़े को मानचित्र में बदलने के लिए।

अपाचे सुअर में हमारे निम्नलिखित स्ट्रिंग कार्य हैं।

एस.एन. कार्य और विवरण
1 ENDSWITH (स्ट्रिंग, testAgainst)

यह सत्यापित करने के लिए कि क्या किसी विशेष स्ट्रिंग के साथ दिए गए स्ट्रिंग समाप्त होते हैं।

2 STARTSWITH (स्ट्रिंग, प्रतिस्थापन)

दो स्ट्रिंग मापदंडों को स्वीकार करता है और सत्यापित करता है कि पहला स्ट्रिंग दूसरे से शुरू होता है या नहीं।

3 SUBSTRING (स्ट्रिंग, startIndex, stopIndex)

किसी दिए गए स्ट्रिंग से एक सबस्ट्रिंग लौटाता है।

4 EqualsIgnoreCase (string1, string2)

मामले की अनदेखी करने वाले दो डंक की तुलना करने के लिए।

5 INDEXOF (स्ट्रिंग, 'वर्ण', startIndex)

एक स्ट्रिंग में एक चरित्र की पहली घटना लौटाता है, एक शुरुआत सूचकांक से आगे की खोज।

6 LAST_INDEX_OF (अभिव्यक्ति)

एक स्ट्रिंग में एक चरित्र की अंतिम घटना का सूचकांक लौटाता है, एक शुरुआत सूचकांक से पिछड़े की खोज करता है।

7 LCFIRST (अभिव्यक्ति)

पहले पात्र को एक मामले में निचले मामले में परिवर्तित करता है।

8 UCFIRST (अभिव्यक्ति)

ऊपरी मामले में परिवर्तित पहले चरित्र के साथ एक स्ट्रिंग लौटाता है।

9 ऊपरी (अभिव्यक्ति)

UPPER (अभिव्यक्ति) ऊपरी मामले में परिवर्तित स्ट्रिंग लौटाता है।

10 कम (अभिव्यक्ति)

सभी वर्णों को निम्न स्थिति में एक स्ट्रिंग में परिवर्तित करता है।

1 1 उत्तर (स्ट्रिंग, 'ओल्डचेयर', 'न्यूचेयर');

नए वर्णों के साथ मौजूदा वर्णों को एक स्ट्रिंग में बदलने के लिए।

12 STRSPLIT (स्ट्रिंग, regex, सीमा)

किसी दिए गए नियमित अभिव्यक्ति के मैचों के चारों ओर एक स्ट्रिंग को विभाजित करने के लिए।

13 STRSPLITTOBAG (स्ट्रिंग, रेगेक्स, सीमा)

के समान STRSPLIT() फ़ंक्शन, यह दिए गए सीमांकक द्वारा स्ट्रिंग को विभाजित करता है और एक बैग में परिणाम देता है।

14 TRIM (अभिव्यक्ति)

हटाए गए व्हाट्सएप के अग्रणी और अनुगामी के साथ एक स्ट्रिंग की एक प्रति लौटाता है।

15 LTRIM (अभिव्यक्ति)

हटाए गए प्रमुख व्हाट्सएप के साथ एक स्ट्रिंग की एक प्रति लौटाता है।

16 RTRIM (अभिव्यक्ति)

हटाए गए व्हाट्सएप के साथ स्ट्रिंग की एक प्रति लौटाता है।

Apache Pig निम्नलिखित दिनांक और समय प्रदान करता है -

एस.एन. कार्य और विवरण
1 Todate (मिलीसेकेंड)

यह फ़ंक्शन दिए गए मापदंडों के अनुसार दिनांक-समय ऑब्जेक्ट लौटाता है। इस फ़ंक्शन के लिए अन्य विकल्प ToDate (iosstring), ToDate (यूज़रस्ट्रिंग, फ़ॉर्मेट), ToDate (यूज़रस्ट्रिंग, फ़ॉर्मेट, टाइमज़ोन) हैं

2 वर्तमान समय()

वर्तमान समय का दिनांक-समय ऑब्जेक्ट लौटाता है।

3 GetDay (दिनांक)

दिनांक-समय ऑब्जेक्ट से एक महीने का दिन लौटाता है।

4 GetHour (दिनांक)

दिनांक-समय ऑब्जेक्ट से दिन का एक घंटा लौटाता है।

5 GetMilliSecond (दिनांक)

दिनांक-समय ऑब्जेक्ट से एक सेकंड की मिलीसेकंड देता है।

6 GetMinute (दिनांक)

दिनांक-समय ऑब्जेक्ट से एक घंटे का मिनट देता है।

7 GetMonth (दिनांक)

दिनांक-समय ऑब्जेक्ट से एक वर्ष का महीना लौटाता है।

8 GetSecond (दिनांक)

दिनांक-समय ऑब्जेक्ट से एक मिनट का दूसरा रिटर्न देता है।

9 GetWeek (दिनांक)

वर्ष का सप्ताह दिनांक-समय ऑब्जेक्ट से लौटाता है।

10 GetWeekYear (दिनांक)

सप्ताह का वर्ष दिनांक-समय ऑब्जेक्ट से लौटाता है।

1 1 GetYear (दिनांक)

वर्ष को दिनांक-समय ऑब्जेक्ट से लौटाता है।

12 AddDuration (डेटाटाइम, अवधि)

अवधि ऑब्जेक्ट के साथ दिनांक-समय ऑब्जेक्ट का परिणाम देता है।

13 घटाव (अवधि, अवधि)

दिनांक-समय ऑब्जेक्ट से अवधि ऑब्जेक्ट को घटाता है और परिणाम देता है।

14 डेज़बेटन (डेटाटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच दिनों की संख्या देता है।

15 घंटेबेटन (डेटाइम 1, डेटटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच घंटों की संख्या देता है।

16 मिलिसेकंडबेटन (डेटाटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच मिलीसेकंड की संख्या देता है।

17 मिनटबेटन (डेटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच मिनट की संख्या देता है।

18 महीनेबेटन (डेटाटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच महीनों की संख्या देता है।

19 SecondsBetween (डेटाटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच सेकंड की संख्या देता है।

20 वीक्सबेटन (डेटाटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच सप्ताह की संख्या देता है।

21 वर्षबेटन (डेटाटाइम 1, डेटाटाइम 2)

दो दिनांक-समय ऑब्जेक्ट्स के बीच वर्षों की संख्या देता है।

अपाचे सुअर में हमारे निम्नलिखित मठ कार्य हैं -

एस.एन. कार्य और विवरण
1 ABS (अभिव्यक्ति)

एक अभिव्यक्ति का पूर्ण मूल्य प्राप्त करने के लिए।

2 ACOS (अभिव्यक्ति)

एक अभिव्यक्ति के आर्क कोसाइन प्राप्त करने के लिए।

3 ASIN (अभिव्यक्ति)

एक अभिव्यक्ति की चाप साइन पाने के लिए।

4 ATAN (अभिव्यक्ति)

इस फ़ंक्शन का उपयोग किसी अभिव्यक्ति के चाप स्पर्श को प्राप्त करने के लिए किया जाता है।

5 CBRT (अभिव्यक्ति)

इस फ़ंक्शन का उपयोग किसी अभिव्यक्ति की घनमूल प्राप्त करने के लिए किया जाता है।

6 CEIL (अभिव्यक्ति)

इस फ़ंक्शन का उपयोग निकटतम पूर्णांक तक गोल अभिव्यक्ति के मूल्य को प्राप्त करने के लिए किया जाता है।

7 भंडार नियंत्रक (अभिव्यक्ति)

इस फ़ंक्शन का उपयोग किसी अभिव्यक्ति के त्रिकोणमितीय कोसाइन को प्राप्त करने के लिए किया जाता है।

8 COSH (अभिव्यक्ति)

इस फ़ंक्शन का उपयोग किसी अभिव्यक्ति के हाइपरबोलिक कॉशन को प्राप्त करने के लिए किया जाता है।

9 ऍक्स्प (अभिव्यक्ति)

इस फ़ंक्शन का उपयोग एक्स की शक्ति के लिए ईलर के नंबर ई को प्राप्त करने के लिए किया जाता है।

10 मंजिल (अभिव्यक्ति)

निकटतम पूर्णांक के लिए एक अभिव्यक्ति का मूल्य प्राप्त करने के लिए।

1 1 लॉग (अभिव्यक्ति)

एक अभिव्यक्ति का प्राकृतिक लघुगणक (आधार ई) प्राप्त करने के लिए।

12 LOG10 (अभिव्यक्ति)

एक अभिव्यक्ति का आधार 10 लघुगणक प्राप्त करने के लिए।

13 रैंडम ()

एक छद्म यादृच्छिक संख्या (टाइप डबल) पाने के लिए 0.0 से अधिक या बराबर 1.0 से कम।

14 ROUND (अभिव्यक्ति)

किसी पूर्णांक (यदि परिणाम प्रकार फ्लोट है) या एक लंबे (यदि परिणाम प्रकार डबल है) के लिए गोल करने के लिए एक अभिव्यक्ति का मूल्य प्राप्त करने के लिए।

15 SIN (अभिव्यक्ति)

एक अभिव्यक्ति की साइन पाने के लिए।

16 SINH (अभिव्यक्ति)

एक अभिव्यक्ति के अतिशयोक्तिपूर्ण साइन प्राप्त करने के लिए।

17 SQRT (अभिव्यक्ति)

एक अभिव्यक्ति का सकारात्मक वर्गमूल प्राप्त करने के लिए।

18 टैन (अभिव्यक्ति)

एक कोण के त्रिकोणमितीय स्पर्शरेखा को प्राप्त करने के लिए।

19 TANH (अभिव्यक्ति)

एक अभिव्यक्ति के अतिशयोक्तिपूर्ण स्पर्शरेखा को प्राप्त करने के लिए।

निर्मित कार्यों के अलावा, अपाचे सुअर के लिए व्यापक समर्थन प्रदान करता है Uसेवा Defined Functions (UDF's)। इन यूडीएफ का उपयोग करके, हम अपने स्वयं के कार्यों को परिभाषित कर सकते हैं और उनका उपयोग कर सकते हैं। UDF समर्थन छह प्रोग्रामिंग भाषाओं में प्रदान किया गया है, अर्थात्, जावा, जाइथन, पायथन, जावास्क्रिप्ट, रूबी और ग्रोवी।

यूडीएफ के लेखन के लिए, जावा में पूर्ण समर्थन प्रदान किया गया है और शेष सभी भाषाओं में सीमित समर्थन प्रदान किया गया है। जावा का उपयोग करते हुए, आप यूडीएफ के प्रसंस्करण के सभी हिस्सों जैसे डेटा लोड / स्टोर, कॉलम परिवर्तन और एकत्रीकरण को लिख सकते हैं। चूंकि अपाचे सुअर को जावा में लिखा गया है, यूडीएफ का जावा भाषा के काम को अन्य भाषाओं की तुलना में कुशलता से लिखा गया है।

Apache Pig में, हमारे पास UDF के नाम के लिए जावा रिपॉजिटरी भी है Piggybank। पिग्गीबैंक का उपयोग करके, हम अन्य उपयोगकर्ताओं द्वारा लिखित जावा यूडीएफ को एक्सेस कर सकते हैं, और अपने स्वयं के यूडीएफ का योगदान कर सकते हैं।

UDF के प्रकार जावा में

UDF के जावा के उपयोग को लिखते समय, हम निम्नलिखित तीन प्रकार के कार्य बना सकते हैं और उनका उपयोग कर सकते हैं -

  • Filter Functions- फ़िल्टर फ़ंक्शन का उपयोग फ़िल्टर स्टेटमेंट में शर्तों के रूप में किया जाता है। ये फ़ंक्शन इनपुट के रूप में एक सुअर मूल्य को स्वीकार करते हैं और एक बूलियन मूल्य वापस करते हैं।

  • Eval Functions- Eval फ़ंक्शन का उपयोग FOREACH-GENERATE कथनों में किया जाता है। ये फ़ंक्शन इनपुट के रूप में एक सुअर मूल्य को स्वीकार करते हैं और एक सुअर परिणाम लौटाते हैं।

  • Algebraic Functions- बीजीय कार्य एक विदेशी कथन में आंतरिक बैग पर कार्य करते हैं। इन कार्यों का उपयोग एक आंतरिक बैग पर पूर्ण MapReduce संचालन करने के लिए किया जाता है।

UDF का जावा के उपयोग से लेखन

जावा का उपयोग करके एक यूडीएफ लिखने के लिए, हमें जार फ़ाइल को एकीकृत करना होगा Pig-0.15.0.jar। इस खंड में, हम चर्चा करते हैं कि ग्रहण का उपयोग करके एक नमूना UDF कैसे लिखा जाए। आगे बढ़ने से पहले, सुनिश्चित करें कि आपने अपने सिस्टम में ग्रहण और मावेन को स्थापित किया है।

UDF फ़ंक्शन लिखने के लिए नीचे दिए गए चरणों का पालन करें -

  • ग्रहण खोलें और एक नया प्रोजेक्ट बनाएं (कहते हैं myproject)।

  • नई बनाई गई परियोजना को मावेन परियोजना में परिवर्तित करें।

  • निम्नलिखित सामग्री को pom.xml में कॉपी करें। इस फ़ाइल में Apache Pig और Hadoop-core jar फ़ाइलों के लिए Maven निर्भरताएँ हैं।

<project xmlns = "http://maven.apache.org/POM/4.0.0"
   xmlns:xsi = "http://www.w3.org/2001/XMLSchema-instance"
   xsi:schemaLocation = "http://maven.apache.org/POM/4.0.0http://maven.apache .org/xsd/maven-4.0.0.xsd"> 
	
   <modelVersion>4.0.0</modelVersion> 
   <groupId>Pig_Udf</groupId> 
   <artifactId>Pig_Udf</artifactId> 
   <version>0.0.1-SNAPSHOT</version>
	
   <build>    
      <sourceDirectory>src</sourceDirectory>    
      <plugins>      
         <plugin>        
            <artifactId>maven-compiler-plugin</artifactId>        
            <version>3.3</version>        
            <configuration>          
               <source>1.7</source>          
               <target>1.7</target>        
            </configuration>      
         </plugin>    
      </plugins>  
   </build>
	
   <dependencies> 
	
      <dependency>            
         <groupId>org.apache.pig</groupId>            
         <artifactId>pig</artifactId>            
         <version>0.15.0</version>     
      </dependency> 
		
      <dependency>        
         <groupId>org.apache.hadoop</groupId>            
         <artifactId>hadoop-core</artifactId>            
         <version>0.20.2</version>     
      </dependency> 
      
   </dependencies>  
	
</project>
  • फाइल को सेव करें और रिफ्रेश करें। मेंMaven Dependencies अनुभाग, आप डाउनलोड की गई जार फाइलें पा सकते हैं।

  • नाम के साथ एक नई कक्षा फ़ाइल बनाएँ Sample_Eval और इसमें निम्न सामग्री की प्रतिलिपि बनाएँ।

import java.io.IOException; 
import org.apache.pig.EvalFunc; 
import org.apache.pig.data.Tuple; 
 
import java.io.IOException; 
import org.apache.pig.EvalFunc; 
import org.apache.pig.data.Tuple;

public class Sample_Eval extends EvalFunc<String>{ 

   public String exec(Tuple input) throws IOException {   
      if (input == null || input.size() == 0)      
      return null;      
      String str = (String)input.get(0);      
      return str.toUpperCase();  
   } 
}

UDF के लेखन के दौरान, EvalFunc वर्ग को इनहेरिट करना और इसे लागू करना अनिवार्य है exec()समारोह। इस फ़ंक्शन के भीतर, यूडीएफ के लिए आवश्यक कोड लिखा गया है। उपरोक्त उदाहरण में, हमने दिए गए कॉलम की सामग्री को अपरकेस में बदलने के लिए कोड वापस कर दिया है।

  • त्रुटियों के बिना कक्षा को संकलित करने के बाद, नमूना_एवल.जवा फ़ाइल पर राइट-क्लिक करें। यह आपको एक मेनू देता है। चुनते हैंexport जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

  • क्लिक करने पर export, आपको निम्न विंडो मिलेगी। पर क्लिक करेंJAR file

  • क्लिक करके आगे बढ़ें Next>बटन। आपको एक और विंडो मिलेगी जहां आपको स्थानीय फ़ाइल सिस्टम में पथ दर्ज करने की आवश्यकता होती है, जहां आपको जार फ़ाइल संग्रहीत करने की आवश्यकता होती है।

  • अंत में क्लिक करें Finishबटन। निर्दिष्ट फ़ोल्डर में, एक जार फ़ाइलsample_udf.jarबनाया गया है। इस जार फ़ाइल में जावा में लिखा गया UDF होता है।

यूडीएफ का उपयोग करना

UDF लिखने और जार फ़ाइल उत्पन्न करने के बाद, नीचे दिए गए चरणों का पालन करें -

चरण 1: जार फ़ाइल को पंजीकृत करना

UDF (जावा में) लिखने के बाद हमें जार फाइल को पंजीकृत करना होगा जिसमें रजिस्टर ऑपरेटर का उपयोग करके UDF होता है। जार फ़ाइल को पंजीकृत करके, उपयोगकर्ता UDF के स्थान को Apache Pig में अंतरंग कर सकते हैं।

Syntax

नीचे दिए गए रजिस्टर ऑपरेटर का सिंटैक्स है।

REGISTER path;

Example

एक उदाहरण के रूप में आइए हम इस अध्याय में पहले बनाये गए sample_udf.jar को पंजीकृत करें।

स्थानीय मोड में अपाचे सुअर शुरू करें और नीचे दिखाए अनुसार जार फ़ाइल sample_udf.jar को पंजीकृत करें।

$cd PIG_HOME/bin $./pig –x local 

REGISTER '/$PIG_HOME/sample_udf.jar'

Note - पथ में जार फ़ाइल को मान लें - /$PIG_HOME/sample_udf.jar

चरण 2: उपनाम को परिभाषित करना

यूडीएफ को पंजीकृत करने के बाद हम इसका उपयोग करते हुए एक उपनाम को परिभाषित कर सकते हैं Define ऑपरेटर।

Syntax

नीचे दिए गए परिभाषित ऑपरेटर का सिंटैक्स है।

DEFINE alias {function | [`command` [input] [output] [ship] [cache] [stderr] ] };

Example

नीचे दिए गए अनुसार नमूना_ के लिए उपनाम को परिभाषित करें।

DEFINE sample_eval sample_eval();

चरण 3: यूडीएफ का उपयोग करना

उपनाम को परिभाषित करने के बाद आप यूडीएफ का उपयोग अंतर्निहित कार्यों के समान कर सकते हैं। मान लीजिए कि HDFS में emp_data नामक एक फ़ाइल है/Pig_Data/ निम्नलिखित सामग्री के साथ निर्देशिका।

001,Robin,22,newyork
002,BOB,23,Kolkata
003,Maya,23,Tokyo
004,Sara,25,London 
005,David,23,Bhuwaneshwar 
006,Maggy,22,Chennai
007,Robert,22,newyork
008,Syam,23,Kolkata
009,Mary,25,Tokyo
010,Saran,25,London 
011,Stacy,25,Bhuwaneshwar 
012,Kelly,22,Chennai

और मान लें कि हमने इस फ़ाइल को सुअर में लोड किया है जैसा कि नीचे दिखाया गया है।

grunt> emp_data = LOAD 'hdfs://localhost:9000/pig_data/emp1.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, city:chararray);

आइए अब हम यूडीएफ का उपयोग करके कर्मचारियों के नामों को ऊपरी मामले में परिवर्तित करते हैं sample_eval

grunt> Upper_case = FOREACH emp_data GENERATE sample_eval(name);

संबंध की सामग्री की पुष्टि करें Upper_case जैसा की नीचे दिखाया गया।

grunt> Dump Upper_case;
  
(ROBIN)
(BOB)
(MAYA)
(SARA)
(DAVID)
(MAGGY)
(ROBERT)
(SYAM)
(MARY)
(SARAN)
(STACY)
(KELLY)

इस अध्याय में, हम देखेंगे कि बैच मोड में अपाचे सुअर स्क्रिप्ट को कैसे चलाया जाए।

सुअर स्क्रिप्ट में टिप्पणियाँ

किसी फ़ाइल में स्क्रिप्ट लिखते समय, हम उसमें टिप्पणियों को शामिल कर सकते हैं जैसा कि नीचे दिखाया गया है।

मल्टी-लाइन टिप्पणियां

हम '/ *' के साथ मल्टी-लाइन टिप्पणियां शुरू करेंगे, उन्हें '' / '' के साथ समाप्त करेंगे।

/* These are the multi-line comments 
  In the pig script */

एकल-टिप्पणी

हम '-' के साथ एकल-पंक्ति टिप्पणी शुरू करेंगे।

--we can write single line comments like this.

पिग स्क्रिप्ट को बैच मोड में निष्पादित करना

अपाचे पिग स्टेटमेंट को बैच मोड में निष्पादित करते समय, नीचे दिए गए चरणों का पालन करें।

चरण 1

सभी आवश्यक सुअर लैटिन स्टेटमेंट को एक ही फाइल में लिखें। हम सभी पिग लैटिन स्टेटमेंट और कमांड को एक ही फाइल में लिख सकते हैं और इसे सेव कर सकते हैं.pig फ़ाइल।

चरण 2

अपाचे सुअर स्क्रिप्ट निष्पादित करें। आप नीचे दिखाए गए अनुसार शेल (लिनक्स) से सुअर स्क्रिप्ट को निष्पादित कर सकते हैं।

स्थानीय प्रणाली MapReduce मोड
$ सुअर -x स्थानीय Sample_script.pig $ सुअर -x मैप्रेडिक Sample_script.pig

आप इसे नीचे दिखाए गए अनुसार कमांड कमांड का उपयोग करके ग्रंट शेल से निष्पादित कर सकते हैं।

grunt> exec /sample_script.pig

HDFS से एक सुअर स्क्रिप्ट निष्पादित करना

हम एक पिग स्क्रिप्ट को भी निष्पादित कर सकते हैं जो HDFS में रहती है। मान लीजिए कि नाम के साथ एक सुअर स्क्रिप्ट हैSample_script.pig नामित HDFS निर्देशिका में /pig_data/। हम इसे नीचे दिखाए अनुसार निष्पादित कर सकते हैं।

$ pig -x mapreduce hdfs://localhost:9000/pig_data/Sample_script.pig

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_details.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad 
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi 
004,Preethi,Agarwal,21,9848022330,Pune 
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar 
006,Archana,Mishra,23,9848022335,Chennai 
007,Komal,Nayak,24,9848022334,trivendram 
008,Bharathi,Nambiayar,24,9848022333,Chennai

हमारे पास नाम के साथ एक नमूना स्क्रिप्ट भी है sample_script.pig, उसी HDFS निर्देशिका में। इस फ़ाइल में संचालन और परिवर्तन करने वाले वक्तव्य हैंstudent संबंध, जैसा कि नीचे दिखाया गया है।

student = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray);
	
student_order = ORDER student BY age DESC;
  
student_limit = LIMIT student_order 4;
  
Dump student_limit;
  • स्क्रिप्ट का पहला स्टेटमेंट नाम की फाइल में डेटा लोड करेगा student_details.txt नाम के एक रिश्ते के रूप में student

  • पटकथा का दूसरा कथन, उम्र के आधार पर, अवरोही क्रम में संबंध के tuples को व्यवस्थित करेगा और इसे स्टोर करेगा student_order

  • स्क्रिप्ट का तीसरा स्टेटमेंट पहले 4 ट्यूपल्स को स्टोर करेगा student_order जैसा student_limit

  • अंत में चौथा कथन संबंध की सामग्री को खोद देगा student_limit

अब हम निष्पादित करते हैं sample_script.pig जैसा की नीचे दिखाया गया।

$./pig -x mapreduce hdfs://localhost:9000/pig_data/sample_script.pig

अपाचे सुअर निष्पादित हो जाता है और आपको निम्न सामग्री के साथ आउटपुट देता है।

(7,Komal,Nayak,24,9848022334,trivendram)
(8,Bharathi,Nambiayar,24,9848022333,Chennai) 
(5,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar) 
(6,Archana,Mishra,23,9848022335,Chennai)
2015-10-19 10:31:27,446 [main] INFO  org.apache.pig.Main - Pig script completed in 12
minutes, 32 seconds and 751 milliseconds (752751 ms)