सुअर लैटिन - मूल बातें
सुअर लैटिन अपाचे सुअर का उपयोग कर Hadoop में डेटा का विश्लेषण करने के लिए इस्तेमाल की जाने वाली भाषा है। इस अध्याय में, हम सुअर लैटिन की बुनियादी बातों जैसे कि सुअर लैटिन बयान, डेटा प्रकार, सामान्य और संबंधपरक ऑपरेटरों और सुअर लैटिन यूडीएफ के बारे में चर्चा करने जा रहे हैं।
सुअर लैटिन - डेटा मॉडल
जैसा कि पिछले अध्यायों में चर्चा की गई है, सुअर का डेटा मॉडल पूरी तरह से नेस्टेड है। एRelationपिग लैटिन डेटा मॉडल की सबसे बाहरी संरचना है। और यह एक हैbag कहाँ -
- एक बैग टुपल्स का एक संग्रह है।
- टुपल खेतों का एक क्रमबद्ध सेट है।
- एक फ़ील्ड डेटा का एक टुकड़ा है।
सुअर लैटिन - स्टेटमेट
सुअर लैटिन का उपयोग करते हुए डेटा संसाधित करते समय, statements बुनियादी निर्माण हैं।
ये कथन काम करते हैं relations। उनमे शामिल हैexpressions तथा schemas।
प्रत्येक कथन एक अर्धविराम (;) के साथ समाप्त होता है।
हम बयानों के माध्यम से, सुअर लैटिन द्वारा प्रदान किए गए ऑपरेटरों का उपयोग करके विभिन्न कार्यों का प्रदर्शन करेंगे।
LOAD और STORE को छोड़कर, अन्य सभी ऑपरेशन करते समय, पिग लैटिन स्टेटमेंट इनपुट के रूप में एक संबंध लेते हैं और आउटपुट के रूप में एक और संबंध बनाते हैं।
जैसे ही आप एक में प्रवेश करते हैं Loadग्रन्ट शेल में बयान, इसकी शब्दार्थ जाँच की जाएगी। स्कीमा की सामग्री को देखने के लिए, आपको उपयोग करने की आवश्यकता हैDumpऑपरेटर। प्रदर्शन करने के बाद हीdump ऑपरेशन, फाइल सिस्टम में डेटा लोड करने के लिए MapReduce का काम किया जाएगा।
उदाहरण
नीचे दिया गया एक सुअर लैटिन स्टेटमेंट है, जो अपाचे सुअर को डेटा लोड करता है।
grunt> Student_data = LOAD 'student_data.txt' USING PigStorage(',')as
( id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray );
सुअर लैटिन - डेटा प्रकार
नीचे दी गई तालिका में सुअर लैटिन डेटा प्रकारों का वर्णन किया गया है।
एस.एन. | डाटा प्रकार | विवरण और उदाहरण |
---|---|---|
1 | पूर्णांक | एक हस्ताक्षरित 32-बिट पूर्णांक का प्रतिनिधित्व करता है। Example : 8 |
2 | लंबा | एक हस्ताक्षरित 64-बिट पूर्णांक का प्रतिनिधित्व करता है। Example : 5 एल |
3 | नाव | एक हस्ताक्षरित 32-बिट फ़्लोटिंग बिंदु का प्रतिनिधित्व करता है। Example : 5.5 एफ |
4 | दोहरा | 64-बिट फ्लोटिंग पॉइंट का प्रतिनिधित्व करता है। Example : 10.5 |
5 | chararray | यूनिकोड UTF-8 प्रारूप में एक चरित्र सरणी (स्ट्रिंग) का प्रतिनिधित्व करता है। Example : 'ट्यूटोरियल पॉइंट' |
6 | bytearray | एक बाइट सरणी (बूँद) का प्रतिनिधित्व करता है। |
7 | बूलियन | एक बूलियन मूल्य का प्रतिनिधित्व करता है। Example : सही गलत। |
8 | दिनांक और समय | दिनांक-समय का प्रतिनिधित्व करता है। Example : 1970-01-01T00: 00: 00.000 + 00: 00 |
9 | Biginteger | एक जावा BigInteger का प्रतिनिधित्व करता है। Example : 60708090709 |
10 | BigDecimal | जावा बिगडेसीमल का प्रतिनिधित्व करता है Example : 185.98376256272893883 |
जटिल प्रकार | ||
1 1 | टपल | टुपल खेतों का एक क्रमबद्ध सेट है। Example : (राज, 30) |
12 | बैग | एक बैग टुपल्स का एक संग्रह है। Example : {(राजू, 30), (मोहम्मद, 45)} |
13 | नक्शा | एक मानचित्र कुंजी-मूल्य जोड़े का एक सेट है। Example : ['नाम' # 'राजू', 'उम्र' # 30] |
अशक्त मान
उपरोक्त सभी प्रकार के डेटा का मान NULL हो सकता है। Apache Pig SQL के समान ही शून्य मानों को व्यवहार करता है।
एक अशक्त एक अज्ञात मूल्य या एक न के बराबर मूल्य हो सकता है। इसका उपयोग वैकल्पिक मानों के लिए प्लेसहोल्डर के रूप में किया जाता है। ये नल स्वाभाविक रूप से हो सकते हैं या एक ऑपरेशन का परिणाम हो सकते हैं।
सुअर लैटिन - अंकगणित संचालक
निम्न तालिका सुअर लैटिन के अंकगणितीय ऑपरेटरों का वर्णन करती है। मान लीजिए एक = 10 और बी = 20।
ऑपरेटर | विवरण | उदाहरण |
---|---|---|
+ | Addition - ऑपरेटर के दोनों ओर मान जोड़ता है |
a + b 30 देगा |
- | Subtraction - बाएं हाथ के ऑपरेंड से दाएं हाथ के ऑपरेंड को घटाएं |
a - b −10 देगा |
* | Multiplication - ऑपरेटर के दोनों ओर मूल्यों को गुणा करता है |
a * b 200 देगा |
/ | Division - दाएं हाथ के ऑपरेंड से बाएं हाथ का ऑपरेशन |
b / a 2 देगा |
% | Modulus - दाएं हाथ के ऑपरेंड से बाएं हाथ के ऑपरेंड और शेष बचे रिटर्न |
ब% ए वल 0 ट |
? : | Bincond- बूलियन ऑपरेटरों का मूल्यांकन करता है। नीचे दिखाए गए अनुसार इसके तीन ऑपरेंड हैं। परिवर्तनशील x = (अभिव्यक्ति)? value1 अगर सच है :value2 अगर झूठ है । |
b = (a == 1)? 20: 30; यदि a = 1 b का मान 20 है। यदि a! = 1 b का मान 30 है। |
मामला कब फिर ELSE END |
Case - केस संचालक नेस्टेड बोंकंड ऑपरेटर के बराबर है। |
CASE f2% 2 जब भी 'तब भी' जब 1 'अजीब' समाप्त |
सुअर लैटिन - तुलना संचालक
निम्न तालिका सुअर लैटिन के तुलना ऑपरेटरों का वर्णन करती है।
ऑपरेटर | विवरण | उदाहरण |
---|---|---|
== | Equal- जाँचता है कि दो ऑपरेंड का मान बराबर है या नहीं; यदि हाँ, तो स्थिति सच हो जाती है। |
(a = b) सत्य नहीं है |
! = | Not Equal- जाँच करता है कि दो ऑपरेंड का मान बराबर है या नहीं। यदि मूल्य समान नहीं हैं, तो स्थिति सच हो जाती है। |
(a! = b) सत्य है। |
> | Greater than- जांचता है कि क्या बाएं ऑपरेंड का मूल्य सही ऑपरेंड के मूल्य से अधिक है। यदि हाँ, तो स्थिति सच हो जाती है। |
(a> b) सत्य नहीं है। |
< | Less than- जांचता है कि क्या बाएं ऑपरेंड का मूल्य सही ऑपरेंड के मूल्य से कम है। यदि हाँ, तो स्थिति सच हो जाती है। |
(a <b) सत्य है। |
> = | Greater than or equal to- जाँच करता है कि क्या बाएं ऑपरेंड का मूल्य सही ऑपरेंड के मूल्य से अधिक या उसके बराबर है। यदि हाँ, तो स्थिति सच हो जाती है। |
(a> = b) सत्य नहीं है। |
<= | Less than or equal to- जांच करता है कि बाएं ऑपरेंड का मूल्य सही ऑपरेंड के मूल्य से कम या उसके बराबर है। यदि हाँ, तो स्थिति सच हो जाती है। |
(अ <= ख) सत्य है। |
माचिस | Pattern matching - जाँच करता है कि क्या बाएं हाथ की ओर की स्ट्रिंग दाएं हाथ की साइड में स्थिर के साथ मेल खाती है या नहीं। |
f1 '। * ट्यूटोरियल। *' |
सुअर लैटिन - प्रकार निर्माण संचालक
निम्न तालिका सुअर लैटिन के प्रकार के निर्माण ऑपरेटरों का वर्णन करती है।
ऑपरेटर | विवरण | उदाहरण |
---|---|---|
() | Tuple constructor operator - इस ऑपरेटर का उपयोग टूपल बनाने के लिए किया जाता है। |
(राजू, 30) |
{} | Bag constructor operator - इस ऑपरेटर का इस्तेमाल बैग बनाने के लिए किया जाता है। |
{(राजू, 30), (मोहम्मद, 45)} |
[] | Map constructor operator - इस ऑपरेटर का उपयोग टूपल बनाने के लिए किया जाता है। |
[नाम # राजा, उम्र # 30] |
सुअर लैटिन - संबंधपरक संचालन
निम्न तालिका सुअर लैटिन के संबंधपरक ऑपरेटरों का वर्णन करती है।
ऑपरेटर | विवरण |
---|---|
Loading and Storing | |
भार | फ़ाइल सिस्टम से डेटा लोड करने के लिए (स्थानीय / एचडीएफएस) एक संबंध में। |
दुकान | फाइल सिस्टम (स्थानीय / एचडीएफएस) के संबंध को बचाने के लिए। |
छनन | |
फ़िल्टर | किसी रिश्ते से अवांछित पंक्तियों को हटाने के लिए। |
DISTINCT | किसी संबंध से डुप्लिकेट पंक्तियाँ निकालने के लिए। |
आगे, उत्पन्न | डेटा के कॉलम के आधार पर डेटा परिवर्तन उत्पन्न करने के लिए। |
धारा | किसी बाहरी प्रोग्राम का उपयोग करके संबंध को बदलना। |
समूह बनाना और जुड़ना | |
शामिल हों | दो या अधिक संबंधों में शामिल होने के लिए। |
COGROUP | डेटा को दो या अधिक संबंधों में समूहित करना। |
ग्रुप | किसी एकल संबंध में डेटा को समूहीकृत करना। |
पार करना | दो या अधिक संबंधों के क्रॉस उत्पाद बनाने के लिए। |
छंटाई | |
गण | एक या अधिक क्षेत्रों (आरोही या अवरोही) के आधार पर एक क्रमबद्ध क्रम में संबंध स्थापित करने के लिए। |
आप LIMIT | एक संबंध से सीमित संख्या में ट्यूपल्स प्राप्त करने के लिए। |
संयोजन और विभाजन | |
यूनिअन | दो या दो से अधिक संबंधों को एक ही संबंध में जोड़ना। |
विभाजित करें | एकल संबंध को दो या दो से अधिक संबंधों में विभाजित करना। |
डायग्नोस्टिक ऑपरेटर्स | |
DUMP | कंसोल पर किसी संबंध की सामग्री मुद्रित करने के लिए। |
वर्णन | किसी संबंध के स्कीमा का वर्णन करने के लिए। |
व्याख्या | किसी संबंध की गणना करने के लिए तार्किक, भौतिक या MapReduce निष्पादन योजनाओं को देखने के लिए। |
उदाहरण देकर स्पष्ट करना | बयानों की एक श्रृंखला के चरण-दर-चरण निष्पादन को देखने के लिए। |