एवीआरओ - अवलोकन
किसी नेटवर्क पर या उसके लगातार भंडारण के लिए डेटा ट्रांसफर करने के लिए, आपको डेटा को क्रमबद्ध करना होगा। के पहलेserialization APIs Java और Hadoop द्वारा प्रदान की गई, हमारे पास एक विशेष उपयोगिता है, जिसे कहा जाता है Avro, एक स्कीमा आधारित क्रमांकन तकनीक।
यह ट्यूटोरियल आपको सिखाता है कि एवरो का उपयोग करके डेटा को क्रमबद्ध और डिसेर्बलाइज़ कैसे किया जाए। एवरो विभिन्न प्रोग्रामिंग भाषाओं के लिए पुस्तकालय प्रदान करता है। इस ट्यूटोरियल में, हम जावा लाइब्रेरी का उपयोग करके उदाहरण प्रदर्शित करते हैं।
एवरो क्या है?
अपाचे एवरो एक भाषा-तटस्थ डेटा क्रमांकन प्रणाली है। इसे Hadoop के पिता डौग कटिंग द्वारा विकसित किया गया था। चूँकि Hadoop Writable Classes में भाषा पोर्टेबिलिटी की कमी होती है, इसलिए Avro काफी मददगार हो जाता है, क्योंकि यह उन डेटा फॉर्मेट को डील करता है, जिन्हें कई भाषाओं द्वारा प्रोसेस किया जा सकता है। एवरो Hadoop में डेटा को क्रमबद्ध करने के लिए एक पसंदीदा उपकरण है।
एवरो में स्कीमा आधारित प्रणाली है। एक भाषा-स्वतंत्र स्कीमा इसके पढ़ने और लिखने के संचालन से जुड़ी है। एवरो उस डेटा को क्रमबद्ध करता है जिसमें एक अंतर्निहित स्कीमा होता है। एवरो डेटा को एक कॉम्पैक्ट बाइनरी फॉर्मेट में क्रमबद्ध करता है, जिसे किसी भी एप्लिकेशन द्वारा डिसेरलाइज़ किया जा सकता है।
Avro डेटा स्ट्रक्चर्स को घोषित करने के लिए JSON फॉर्मेट का उपयोग करता है। वर्तमान में, यह जावा, सी, सी ++, सी #, पायथन, और रूबी जैसी भाषाओं का समर्थन करता है।
एवरो स्कीमास
एवरो इस पर बहुत अधिक निर्भर करता है schema। यह हर डेटा को स्कीमा के पूर्व ज्ञान के साथ लिखने की अनुमति देता है। यह तेजी से क्रमबद्ध होता है और परिणामस्वरूप क्रमबद्ध डेटा आकार में कम होता है। स्कीमा एवरो डेटा के साथ किसी भी आगे की प्रक्रिया के लिए एक फ़ाइल में संग्रहीत है।
RPC में, क्लाइंट और सर्वर कनेक्शन के दौरान स्कीमा का आदान-प्रदान करते हैं। यह एक्सचेंज समान नामित फ़ील्ड, लापता फ़ील्ड, अतिरिक्त फ़ील्ड, आदि के बीच संचार में मदद करता है।
एवरो स्कीमा को JSON से परिभाषित किया गया है जो JSON लाइब्रेरी के साथ भाषाओं में इसके कार्यान्वयन को सरल बनाता है।
एवरो की तरह, Hadoop में अन्य क्रमिक तंत्र हैं जैसे कि Sequence Files, Protocol Buffers, तथा Thrift।
थ्रिफ्ट और प्रोटोकॉल बफ़र्स के साथ तुलना
Thrift तथा Protocol Buffersएवरो के साथ सबसे सक्षम पुस्तकालय हैं। एवरो निम्नलिखित तरीकों से इन रूपरेखाओं से अलग है -
एवरो आवश्यकता के अनुसार गतिशील और स्थिर दोनों प्रकार का समर्थन करता है। प्रोटोकॉल बफ़र्स और थ्रिफ्ट स्कीमा और उनके प्रकारों को निर्दिष्ट करने के लिए इंटरफ़ेस डेफिनिशन लैंग्वेज (आईडीएल) का उपयोग करते हैं। इन IDL का उपयोग सीरियलाइज़ेशन और डीरिएरलाइज़ेशन के लिए कोड जनरेट करने के लिए किया जाता है।
एवरो को Hadoop इकोसिस्टम में बनाया गया है। थिफ्ट और प्रोटोकॉल बफ़र्स Hadoop पारिस्थितिकी तंत्र में नहीं बने हैं।
थ्रिफ्ट और प्रोटोकॉल बफर के विपरीत, एवरो की स्कीमा परिभाषा JSON में है और किसी भी मालिकाना IDL में नहीं है।
संपत्ति | एवरो | थ्रिफ्ट एंड प्रोटोकॉल बफर |
---|---|---|
गतिशील स्कीमा | हाँ | नहीं |
Hadoop में बनाया गया | हाँ | नहीं |
योजना JSON में | हाँ | नहीं |
संकलन करने की आवश्यकता नहीं है | हाँ | नहीं |
आईडी घोषित करने की आवश्यकता नहीं है | हाँ | नहीं |
खून बहता किनारा | हाँ | नहीं |
एवरो की विशेषताएं
नीचे सूचीबद्ध एवरो की कुछ प्रमुख विशेषताएं हैं -
एवरो एक है language-neutral डेटा क्रमांकन प्रणाली।
इसे कई भाषाओं (वर्तमान में C, C ++, C #, Java, Python, और Ruby) द्वारा संसाधित किया जा सकता है।
एवरो द्विआधारी संरचित प्रारूप बनाता है जो दोनों है compressible तथा splittable। इसलिए यह कुशलता से Hadoop MapReduce नौकरियों के इनपुट के रूप में उपयोग किया जा सकता है।
एवरो प्रदान करता है rich data structures। उदाहरण के लिए, आप एक रिकॉर्ड बना सकते हैं जिसमें एक सरणी, एक एनुमरेटेड प्रकार और एक उप रिकॉर्ड होता है। ये डेटाटाइप किसी भी भाषा में बनाए जा सकते हैं, Hadoop में संसाधित किए जा सकते हैं, और परिणामों को तीसरी भाषा में खिलाया जा सकता है।
एवरो schemas में परिभाषित किया गया JSON, जिन भाषाओं में पहले से ही JSON लाइब्रेरी है, उन्हें लागू करने की सुविधा।
एवरो एवरो डेटा फ़ाइल नामक एक आत्म-वर्णन फ़ाइल बनाता है , जिसमें यह मेटाडेटा अनुभाग में अपने स्कीमा के साथ डेटा संग्रहीत करता है।
दूरस्थ प्रक्रिया कॉल (RPC) में भी एवरो का उपयोग किया जाता है। RPC के दौरान, क्लाइंट और सर्वर कनेक्शन हैंडशेक में स्कीमा का आदान-प्रदान करते हैं।
एवरो का सामान्य कार्य
एवरो का उपयोग करने के लिए, आपको दिए गए वर्कफ़्लो का पालन करना होगा -
Step 1- स्कीमा बनाएं। यहां आपको अपने डेटा के अनुसार एवरो स्कीमा डिज़ाइन करना होगा।
Step 2- अपने कार्यक्रम में स्कीमा पढ़ें। यह दो तरीकों से किया जाता है -
By Generating a Class Corresponding to Schema- एवरो का उपयोग करके स्कीमा को संकलित करें। यह स्कीमा के अनुरूप एक वर्ग फ़ाइल उत्पन्न करता है
By Using Parsers Library - आप सीधे पार्सर लाइब्रेरी का उपयोग करके स्कीमा पढ़ सकते हैं।
Step 3 - एवरो के लिए प्रदान की गई क्रमबद्धता एपीआई का उपयोग करके डेटा को सीरियल करें, जो इसमें पाया जाता है package org.apache.avro.specific।
Step 4 - एवरो के लिए प्रदान किए गए डिसेरिएलाइज़ेशन एपीआई का उपयोग करके डेटा का वर्णन करें, जो इसमें पाया जाता है package org.apache.avro.specific.