AVRO - त्वरित गाइड

किसी नेटवर्क पर या उसके लगातार भंडारण के लिए डेटा ट्रांसफर करने के लिए, आपको डेटा को क्रमबद्ध करना होगा। के पहलेserialization APIs Java और Hadoop द्वारा प्रदान की गई, हमारे पास एक विशेष उपयोगिता है, जिसे कहा जाता है Avro, एक स्कीमा आधारित क्रमांकन तकनीक।

यह ट्यूटोरियल आपको सिखाता है कि एवरो का उपयोग करके डेटा को क्रमबद्ध और डिसेर्बलाइज़ कैसे किया जाए। एवरो विभिन्न प्रोग्रामिंग भाषाओं के लिए पुस्तकालय प्रदान करता है। इस ट्यूटोरियल में, हम जावा लाइब्रेरी का उपयोग करके उदाहरण प्रदर्शित करते हैं।

एवरो क्या है?

अपाचे एवरो एक भाषा-तटस्थ डेटा क्रमांकन प्रणाली है। इसे Hadoop के पिता डौग कटिंग द्वारा विकसित किया गया था। चूँकि Hadoop Writable Classes में भाषा पोर्टेबिलिटी की कमी होती है, इसलिए Avro काफी मददगार हो जाता है, क्योंकि यह उन डेटा फॉर्मेट को डील करता है, जिन्हें कई भाषाओं द्वारा प्रोसेस किया जा सकता है। एवरो Hadoop में डेटा को क्रमबद्ध करने के लिए एक पसंदीदा उपकरण है।

एवरो में स्कीमा आधारित प्रणाली है। एक भाषा-स्वतंत्र स्कीमा इसके पढ़ने और लिखने के संचालन से जुड़ी है। एवरो उस डेटा को क्रमबद्ध करता है जिसमें एक अंतर्निहित स्कीमा होता है। एवरो डेटा को एक कॉम्पैक्ट बाइनरी फॉर्मेट में क्रमबद्ध करता है, जिसे किसी भी एप्लिकेशन द्वारा डिसेरलाइज़ किया जा सकता है।

Avro डेटा स्ट्रक्चर्स को घोषित करने के लिए JSON फॉर्मेट का उपयोग करता है। वर्तमान में, यह जावा, सी, सी ++, सी #, पायथन, और रूबी जैसी भाषाओं का समर्थन करता है।

एवरो स्कीमास

एवरो इस पर बहुत अधिक निर्भर करता है schema। यह हर डेटा को स्कीमा के पूर्व ज्ञान के साथ लिखने की अनुमति देता है। यह तेजी से क्रमबद्ध होता है और परिणामस्वरूप क्रमबद्ध डेटा आकार में कम होता है। स्कीमा एवरो डेटा के साथ किसी भी आगे की प्रक्रिया के लिए एक फ़ाइल में संग्रहीत है।

RPC में, क्लाइंट और सर्वर कनेक्शन के दौरान स्कीमा का आदान-प्रदान करते हैं। यह एक्सचेंज समान नामित फ़ील्ड, लापता फ़ील्ड, अतिरिक्त फ़ील्ड, आदि के बीच संचार में मदद करता है।

एवरो स्कीमा को JSON से परिभाषित किया गया है जो JSON लाइब्रेरी के साथ भाषाओं में इसके कार्यान्वयन को सरल बनाता है।

एवरो की तरह, Hadoop में अन्य क्रमिक तंत्र हैं जैसे कि Sequence Files, Protocol Buffers, तथा Thrift

थ्रिफ्ट और प्रोटोकॉल बफ़र्स के साथ तुलना

Thrift तथा Protocol Buffersएवरो के साथ सबसे सक्षम पुस्तकालय हैं। एवरो निम्नलिखित तरीकों से इन रूपरेखाओं से अलग है -

  • एवरो आवश्यकता के अनुसार गतिशील और स्थिर दोनों प्रकार का समर्थन करता है। प्रोटोकॉल बफ़र्स और थ्रिफ्ट स्कीमा और उनके प्रकारों को निर्दिष्ट करने के लिए इंटरफ़ेस डेफिनिशन लैंग्वेज (आईडीएल) का उपयोग करते हैं। इन IDL का उपयोग सीरियलाइज़ेशन और डीरिएरलाइज़ेशन के लिए कोड जनरेट करने के लिए किया जाता है।

  • एवरो को Hadoop इकोसिस्टम में बनाया गया है। थिफ्ट और प्रोटोकॉल बफ़र्स Hadoop पारिस्थितिकी तंत्र में नहीं बने हैं।

थ्रिफ्ट और प्रोटोकॉल बफर के विपरीत, एवरो की स्कीमा परिभाषा JSON में है और किसी भी मालिकाना IDL में नहीं है।

संपत्ति एवरो थ्रिफ्ट एंड प्रोटोकॉल बफर
गतिशील स्कीमा हाँ नहीं
Hadoop में बनाया गया हाँ नहीं
योजना JSON में हाँ नहीं
संकलन करने की आवश्यकता नहीं है हाँ नहीं
आईडी घोषित करने की आवश्यकता नहीं है हाँ नहीं
खून बहता किनारा हाँ नहीं

एवरो की विशेषताएं

नीचे सूचीबद्ध एवरो की कुछ प्रमुख विशेषताएं हैं -

  • एवरो एक है language-neutral डेटा क्रमांकन प्रणाली।

  • इसे कई भाषाओं (वर्तमान में C, C ++, C #, Java, Python, और Ruby) द्वारा संसाधित किया जा सकता है।

  • एवरो द्विआधारी संरचित प्रारूप बनाता है जो दोनों है compressible तथा splittable। इसलिए यह कुशलता से Hadoop MapReduce नौकरियों के इनपुट के रूप में उपयोग किया जा सकता है।

  • एवरो प्रदान करता है rich data structures। उदाहरण के लिए, आप एक रिकॉर्ड बना सकते हैं जिसमें एक सरणी, एक एनुमरेटेड प्रकार और एक उप रिकॉर्ड होता है। ये डेटाटाइप किसी भी भाषा में बनाए जा सकते हैं, Hadoop में संसाधित किए जा सकते हैं, और परिणामों को तीसरी भाषा में खिलाया जा सकता है।

  • एवरो schemas में परिभाषित किया गया JSON, जिन भाषाओं में पहले से ही JSON लाइब्रेरी है, उन्हें लागू करने की सुविधा।

  • एवरो एवरो डेटा फ़ाइल नामक एक आत्म-वर्णन फ़ाइल बनाता है , जिसमें यह मेटाडेटा अनुभाग में अपने स्कीमा के साथ डेटा संग्रहीत करता है।

  • दूरस्थ प्रक्रिया कॉल (RPC) में भी एवरो का उपयोग किया जाता है। RPC के दौरान, क्लाइंट और सर्वर कनेक्शन हैंडशेक में स्कीमा का आदान-प्रदान करते हैं।

एवरो का सामान्य कार्य

एवरो का उपयोग करने के लिए, आपको दिए गए वर्कफ़्लो का पालन करना होगा -

  • Step 1- स्कीमा बनाएं। यहां आपको अपने डेटा के अनुसार एवरो स्कीमा डिज़ाइन करना होगा।

  • Step 2- अपने कार्यक्रम में स्कीमा पढ़ें। यह दो तरीकों से किया जाता है -

    • By Generating a Class Corresponding to Schema- एवरो का उपयोग करके स्कीमा को संकलित करें। यह स्कीमा के अनुरूप एक वर्ग फ़ाइल उत्पन्न करता है

    • By Using Parsers Library - आप सीधे पार्सर लाइब्रेरी का उपयोग करके स्कीमा पढ़ सकते हैं।

  • Step 3 - एवरो के लिए प्रदान की गई क्रमबद्धता एपीआई का उपयोग करके डेटा को सीरियल करें, जो इसमें पाया जाता है package org.apache.avro.specific

  • Step 4 - एवरो के लिए प्रदान किए गए डिसेरिएलाइज़ेशन एपीआई का उपयोग करके डेटा का वर्णन करें, जो इसमें पाया जाता है package org.apache.avro.specific.

डेटा दो उद्देश्यों के लिए क्रमबद्ध है -

  • लगातार भंडारण के लिए

  • नेटवर्क पर डेटा ट्रांसपोर्ट करने के लिए

Serialization क्या है?

सीरियलाइजेशन डेटा संरचनाओं या ऑब्जेक्ट्स को बाइनरी या टेक्स्टुअल रूप में ट्रांसलेट करने की प्रक्रिया है जो डेटा को नेटवर्क पर ट्रांसपोर्ट करने के लिए या कुछ लगातार स्टोरेज पर स्टोर करने के लिए है। एक बार जब डेटा को नेटवर्क पर ले जाया जाता है या लगातार स्टोरेज से पुनर्प्राप्त किया जाता है, तो इसे फिर से डिजर्वलाइज़ करने की आवश्यकता होती है। सीरियलाइजेशन को कहा जाता हैmarshalling और deserialization के रूप में कहा जाता है unmarshalling

जावा में क्रमांकन

जावा एक तंत्र प्रदान करता है, जिसे कहा जाता है object serialization जहां एक वस्तु को बाइट्स के अनुक्रम के रूप में दर्शाया जा सकता है जिसमें ऑब्जेक्ट के डेटा के साथ-साथ ऑब्जेक्ट के प्रकार और ऑब्जेक्ट में संग्रहीत डेटा के प्रकार के बारे में जानकारी शामिल होती है।

किसी सीरियल किए गए ऑब्जेक्ट को फ़ाइल में लिखे जाने के बाद, इसे फ़ाइल से पढ़ा जा सकता है और डीसर्विलाइज़ किया जा सकता है। अर्थात्, प्रकार की जानकारी और बाइट्स जो ऑब्जेक्ट का प्रतिनिधित्व करते हैं और इसके डेटा का उपयोग मेमोरी में ऑब्जेक्ट को फिर से बनाने के लिए किया जा सकता है।

ObjectInputStream तथा ObjectOutputStream जावा में क्रमशः किसी ऑब्जेक्ट को क्रमबद्ध करने और उसे अलग करने के लिए कक्षाओं का उपयोग किया जाता है।

Hadoop में सीरियल

आमतौर पर Hadoop जैसी वितरित प्रणालियों में, क्रमांकन की अवधारणा का उपयोग किया जाता है Interprocess Communication तथा Persistent Storage

अंतःप्रक्रम संचार

  • एक नेटवर्क में जुड़े नोड्स के बीच इंटरप्रोसेस संचार स्थापित करने के लिए, आरपीसी तकनीक का उपयोग किया गया था।

  • आरपीसी ने नेटवर्क के माध्यम से दूरस्थ नोड पर भेजने से पहले संदेश को बाइनरी प्रारूप में बदलने के लिए आंतरिक क्रमांकन का उपयोग किया। दूसरे छोर पर रिमोट सिस्टम मूल संदेश में बाइनरी स्ट्रीम को deserializes।

  • आरपीसी क्रमांकन प्रारूप इस प्रकार होना आवश्यक है -

    • Compact - नेटवर्क बैंडविड्थ का सबसे अच्छा उपयोग करने के लिए, जो डेटा सेंटर में सबसे दुर्लभ संसाधन है।

    • Fast - चूंकि वितरित सिस्टम में नोड्स के बीच संचार महत्वपूर्ण है, इसलिए कम ओवरहेड का उत्पादन करते हुए क्रमबद्धता और डिसेरिएलाइज़ेशन प्रक्रिया त्वरित होनी चाहिए।

    • Extensible - नई आवश्यकताओं को पूरा करने के लिए प्रोटोकॉल समय के साथ बदलते हैं, इसलिए क्लाइंट और सर्वर के लिए नियंत्रित तरीके से प्रोटोकॉल को विकसित करना सीधा होना चाहिए।

    • Interoperable - संदेश प्रारूप को विभिन्न भाषाओं में लिखे गए नोड्स का समर्थन करना चाहिए।

लगातार भंडारण

निरंतर भंडारण एक डिजिटल भंडारण सुविधा है जो बिजली की आपूर्ति के नुकसान के साथ अपना डेटा नहीं खोता है। फ़ाइलें, फ़ोल्डर्स, डेटाबेस लगातार भंडारण के उदाहरण हैं।

लिखने योग्य इंटरफ़ेस

यह हाडोप में इंटरफ़ेस है जो क्रमबद्धता और डीरियलाइज़ेशन के लिए तरीके प्रदान करता है। निम्न तालिका विधियों का वर्णन करती है -

क्र.सं. तरीके और विवरण
1

void readFields(DataInput in)

इस पद्धति का उपयोग किसी दिए गए ऑब्जेक्ट के फ़ील्ड को डिसेरिएलाइज़ करने के लिए किया जाता है।

2

void write(DataOutput out)

इस पद्धति का उपयोग किसी दिए गए ऑब्जेक्ट के क्षेत्रों को क्रमबद्ध करने के लिए किया जाता है।

लिखने योग्य तुलनीय इंटरफ़ेस

का संयोजन है Writable तथा Comparableइंटरफेस। यह इंटरफ़ेस विरासत में मिला हैWritable Hadoop का इंटरफ़ेस और साथ ही Comparableजावा का इंटरफ़ेस। इसलिए यह डेटा सीरियलाइज़ेशन, डिसेरिएलाइज़ेशन और तुलना के लिए तरीके प्रदान करता है।

क्र.सं. तरीके और विवरण
1

int compareTo(class obj)

यह विधि दी गई वस्तु obj के साथ वर्तमान वस्तु की तुलना करती है।

इन वर्गों के अलावा, Hadoop कई रैपर वर्गों का समर्थन करता है जो WritableComparable इंटरफ़ेस को लागू करते हैं। प्रत्येक वर्ग एक जावा आदिम प्रकार लपेटता है। Hadoop क्रमांकन की श्रेणी पदानुक्रम नीचे दी गई है -

ये वर्ग Hadoop में विभिन्न प्रकार के डेटा को क्रमबद्ध करने के लिए उपयोगी हैं। उदाहरण के लिए, आइए हम इस पर विचार करेंIntWritableकक्षा। आइए देखते हैं कि कैसे इस वर्ग का उपयोग हैडोअप में डेटा को क्रमबद्ध और निष्क्रिय करने के लिए किया जाता है।

अंतरंग कक्षा

यह वर्ग लागू करता है Writable, Comparable, तथा WritableComparableइंटरफेस। यह इसमें एक पूर्णांक डेटा प्रकार को लपेटता है। यह वर्ग पूर्णांक प्रकार के डेटा को क्रमबद्ध और अ-अयोग्य बनाने के लिए उपयोग की जाने वाली विधियाँ प्रदान करता है।

कंस्ट्रक्टर्स

क्र.सं. सारांश
1 IntWritable()
2 IntWritable( int value)

तरीकों

क्र.सं. सारांश
1

int get()

इस पद्धति का उपयोग करके आप वर्तमान वस्तु में मौजूद पूर्णांक मान प्राप्त कर सकते हैं।

2

void readFields(DataInput in)

इस पद्धति का उपयोग दिए गए डेटा को डिसेर्बलाइज करने के लिए किया जाता है DataInput वस्तु।

3

void set(int value)

इस विधि का उपयोग करंट के मान को सेट करने के लिए किया जाता है IntWritable वस्तु।

4

void write(DataOutput out)

इस पद्धति का उपयोग मौजूदा वस्तु में दिए गए डेटा को क्रमबद्ध करने के लिए किया जाता है DataOutput वस्तु।

Hadoop में डेटा को सीरियल करना

पूर्णांक प्रकार के डेटा को क्रमबद्ध करने की प्रक्रिया नीचे चर्चा की गई है।

  • इन्स्तांत करना IntWritable इसमें पूर्णांक मान लपेटकर वर्ग।

  • इन्स्तांत करना ByteArrayOutputStream कक्षा।

  • इन्स्तांत करना DataOutputStream कक्षा और वस्तु पास करें ByteArrayOutputStream इसके लिए कक्षा।

  • उपयोग करने योग्य आंतरिक वस्तु में पूर्णांक मान को क्रमबद्ध करें write()तरीका। इस विधि को DataOutputStream वर्ग की एक वस्तु की आवश्यकता है।

  • क्रमबद्ध डेटा को बाइट सरणी ऑब्जेक्ट में संग्रहीत किया जाएगा जो कि पैरामीटर के रूप में पारित किया गया है DataOutputStreamतात्कालिकता के समय वर्ग। ऑब्जेक्ट को बाइट सरणी में डेटा में कनवर्ट करें।

उदाहरण

निम्न उदाहरण दिखाता है कि कैसे Hadoop में पूर्णांक प्रकार के डेटा को क्रमबद्ध किया जाए -

import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

public class Serialization {
   public byte[] serialize() throws IOException{
		
      //Instantiating the IntWritable object
      IntWritable intwritable = new IntWritable(12);
   
      //Instantiating ByteArrayOutputStream object
      ByteArrayOutputStream byteoutputStream = new ByteArrayOutputStream();
   
      //Instantiating DataOutputStream object
      DataOutputStream dataOutputStream = new
      DataOutputStream(byteoutputStream);
   
      //Serializing the data
      intwritable.write(dataOutputStream);
   
      //storing the serialized object in bytearray
      byte[] byteArray = byteoutputStream.toByteArray();
   
      //Closing the OutputStream
      dataOutputStream.close();
      return(byteArray);
   }
	
   public static void main(String args[]) throws IOException{
      Serialization serialization= new Serialization();
      serialization.serialize();
      System.out.println();
   }
}

Hadoop में डेटा का वर्णन करना

पूर्णांक प्रकार के डेटा को डिसेर्बलाइज करने की प्रक्रिया नीचे चर्चा की गई है -

  • इन्स्तांत करना IntWritable इसमें पूर्णांक मान लपेटकर वर्ग।

  • इन्स्तांत करना ByteArrayOutputStream कक्षा।

  • इन्स्तांत करना DataOutputStream कक्षा और वस्तु पास करें ByteArrayOutputStream इसके लिए कक्षा।

  • के ऑब्जेक्ट में डेटा का वर्णन करें DataInputStream का उपयोग करते हुए readFields() अंतरंग कक्षा की विधि।

  • Deserialized डेटा को IntWritable class के ऑब्जेक्ट में स्टोर किया जाएगा। आप इस डेटा का उपयोग करके पुनः प्राप्त कर सकते हैंget() इस वर्ग की विधि।

उदाहरण

निम्न उदाहरण से पता चलता है कि Hadoop में पूर्णांक प्रकार के डेटा को कैसे निष्क्रिय किया जाए -

import java.io.ByteArrayInputStream;
import java.io.DataInputStream;

import org.apache.hadoop.io.IntWritable;

public class Deserialization {

   public void deserialize(byte[]byteArray) throws Exception{
   
      //Instantiating the IntWritable class
      IntWritable intwritable =new IntWritable();
      
      //Instantiating ByteArrayInputStream object
      ByteArrayInputStream InputStream = new ByteArrayInputStream(byteArray);
      
      //Instantiating DataInputStream object
      DataInputStream datainputstream=new DataInputStream(InputStream);
      
      //deserializing the data in DataInputStream
      intwritable.readFields(datainputstream);
      
      //printing the serialized data
      System.out.println((intwritable).get());
   }
   
   public static void main(String args[]) throws Exception {
      Deserialization dese = new Deserialization();
      dese.deserialize(new Serialization().serialize());
   }
}

जावा Serialization पर Hadoop का लाभ

Hadoop का Writable- आधारित क्रमांकन, लेखन योग्य ऑब्जेक्ट्स का पुन: उपयोग करके ऑब्जेक्ट-क्रिएशन ओवरहेड को कम करने में सक्षम है, जो Java के मूल क्रमांकन फ्रेमवर्क के साथ संभव नहीं है।

Hadoop Serialization के नुकसान

Hadoop डेटा को क्रमबद्ध करने के लिए, दो तरीके हैं -

  • आप उपयोग कर सकते हैं Writable Hadoop की मूल लाइब्रेरी द्वारा प्रदान की गई कक्षाएं।

  • आप भी उपयोग कर सकते हैं Sequence Files जो बाइनरी फॉर्मेट में डेटा को स्टोर करते हैं।

इन दोनों तंत्रों का मुख्य दोष यह है Writables तथा SequenceFiles केवल एक जावा एपीआई है और उन्हें किसी अन्य भाषा में नहीं लिखा या पढ़ा जा सकता है।

इसलिए दो तंत्रों के साथ Hadoop में बनाई गई किसी भी फाइल को किसी अन्य तीसरी भाषा द्वारा नहीं पढ़ा जा सकता है, जो Hadoop को एक सीमित बॉक्स के रूप में बनाता है। इस खामी को दूर करने के लिए, डौग कटिंग ने बनायाAvro, जो कि है language independent data structure

अपाचे सॉफ्टवेयर फाउंडेशन एवरो को विभिन्न रिलीज प्रदान करता है। आप अपाचे दर्पण से आवश्यक रिलीज डाउनलोड कर सकते हैं। आइए देखते हैं, एवरो के साथ काम करने के लिए पर्यावरण कैसे स्थापित करें -

डाउनलोडिंग एवरो

अपाचे एवरो डाउनलोड करने के लिए, निम्नलिखित के साथ आगे बढ़ें -

  • वेब पेज Apache.org खोलें । आपको अपाचे एवरो का होमपेज दिखाई देगा जैसा कि नीचे दिखाया गया है -

  • प्रोजेक्ट → रिलीज़ पर क्लिक करें। आपको रिलीज़ की सूची मिल जाएगी।

  • नवीनतम रिलीज़ का चयन करें जो आपको एक डाउनलोड लिंक की ओर ले जाता है।

  • mirror.nexcess उन लिंक्स में से एक है जहाँ आप विभिन्न भाषाओं की उन सभी पुस्तकालयों की सूची पा सकते हैं जो एवरो नीचे दिखाए अनुसार समर्थन करता है -

आप दी गई किसी भी भाषा के लिए लाइब्रेरी का चयन और डाउनलोड कर सकते हैं। इस ट्यूटोरियल में, हम जावा का उपयोग करते हैं। इसलिए जार फ़ाइलों को डाउनलोड करेंavro-1.7.7.jar तथा avro-tools-1.7.7.jar

ग्रहण के साथ एवरो

ग्रहण पर्यावरण में एवरो का उपयोग करने के लिए, आपको नीचे दिए गए चरणों का पालन करने की आवश्यकता है -

  • Step 1. खुला ग्रहण।

  • Step 2. एक प्रोजेक्ट बनाएं।

  • Step 3.प्रोजेक्ट के नाम पर राइट-क्लिक करें। आपको एक शॉर्टकट मेनू मिलेगा।

  • Step 4. पर क्लिक करें Build Path। यह आपको दूसरे शॉर्टकट मेनू में ले जाता है।

  • Step 5. पर क्लिक करें Configure Build Path... आप नीचे दिखाए गए अनुसार अपनी परियोजना के गुण विंडो देख सकते हैं -

  • Step 6. लाइब्रेरी टैब के तहत, पर क्लिक करें ADD EXternal JARs... बटन।

  • Step 7. जार फ़ाइल का चयन करें avro-1.77.jar आपने डाउनलोड किया है

  • Step 8. पर क्लिक करें OK

मावेन के साथ एवरो

आप मावेन का उपयोग करके एवरो लाइब्रेरी को भी अपने प्रोजेक्ट में प्राप्त कर सकते हैं। नीचे दिए गए Avro के लिए pom.xml फ़ाइल है।

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="   http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

   <modelVersion>4.0.0</modelVersion>
   <groupId>Test</groupId>
   <artifactId>Test</artifactId>
   <version>0.0.1-SNAPSHOT</version>

   <build>
      <sourceDirectory>src</sourceDirectory>
      <plugins>
         <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.1</version>
		
            <configuration>
               <source>1.7</source>
               <target>1.7</target>
            </configuration>
		
         </plugin>
      </plugins>
   </build>

   <dependencies>
      <dependency>
         <groupId>org.apache.avro</groupId>
         <artifactId>avro</artifactId>
         <version>1.7.7</version>
      </dependency>
	
      <dependency>
         <groupId>org.apache.avro</groupId>
         <artifactId>avro-tools</artifactId>
         <version>1.7.7</version>
      </dependency>
	
      <dependency>
         <groupId>org.apache.logging.log4j</groupId>
         <artifactId>log4j-api</artifactId>
         <version>2.0-beta9</version>
      </dependency>
	
      <dependency>
         <groupId>org.apache.logging.log4j</groupId>
         <artifactId>log4j-core</artifactId>
         <version>2.0-beta9</version>
      </dependency>
	
   </dependencies>

</project>

कक्षापथ की स्थापना

लिनक्स वातावरण में एवरो के साथ काम करने के लिए, निम्न जार फ़ाइलों को डाउनलोड करें -

  • avro-1.77.jar
  • avro-tools-1.77.jar
  • log4j-api-2.0-beta9.jar
  • og4j-core-2.0.beta9.jar.

इन फ़ाइलों को एक फ़ोल्डर में कॉपी करें और वर्गपथ को फ़ोल्डर में सेट करें, में।/bashrc नीचे दिखाए अनुसार।

#class path for Avro
export CLASSPATH=$CLASSPATH://home/Hadoop/Avro_Work/jars/*

एवरो, एक स्कीमा-आधारित क्रमांकन उपयोगिता होने के नाते, इनपुट के रूप में स्कीमा स्वीकार करता है। विभिन्न स्कीमा उपलब्ध होने के बावजूद, एवरो स्कीमा को परिभाषित करने के अपने स्वयं के मानकों का पालन करता है। ये योजनाएँ निम्नलिखित विवरणों का वर्णन करती हैं -

  • फ़ाइल का प्रकार (डिफ़ॉल्ट रूप से रिकॉर्ड)
  • रिकॉर्ड का स्थान
  • रिकॉर्ड का नाम
  • अपने संबंधित डेटा प्रकारों के साथ रिकॉर्ड में फ़ील्ड्स

इन स्कीमाओं का उपयोग करके, आप कम स्थान का उपयोग करके बाइनरी प्रारूप में क्रमबद्ध मानों को संग्रहीत कर सकते हैं। इन मूल्यों को बिना किसी मेटाडेटा के संग्रहीत किया जाता है।

एवरो स्कीम्स बनाना

एवरो स्कीमा जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON) दस्तावेज़ प्रारूप में बनाया गया है, जो एक हल्का पाठ-आधारित डेटा इंटरचेंज प्रारूप है। इसे निम्नलिखित तरीकों में से एक में बनाया गया है -

  • एक JSON स्ट्रिंग
  • एक JSON ऑब्जेक्ट
  • एक JSON सरणी

Example - निम्नलिखित उदाहरण एक स्कीमा को दर्शाता है, जो एक दस्तावेज को परिभाषित करता है, नाम स्पेस ट्यूटोरियल के तहत, कर्मचारी नाम के साथ, फ़ील्ड नाम और आयु के साथ।

{
   "type" : "record",
   "namespace" : "Tutorialspoint",
   "name" : "Employee",
   "fields" : [
      { "name" : "Name" , "type" : "string" },
      { "name" : "Age" , "type" : "int" }
   ]
}

इस उदाहरण में, आप देख सकते हैं कि प्रत्येक रिकॉर्ड के लिए चार फ़ील्ड हैं -

  • type - यह फील्ड डॉक्यूमेंट के साथ-साथ फील्ड नाम के फील्ड के तहत आती है।

    • दस्तावेज़ के मामले में, यह दस्तावेज़ का प्रकार दिखाता है, आम तौर पर एक रिकॉर्ड क्योंकि कई क्षेत्र हैं।

    • जब यह फ़ील्ड होता है, तो प्रकार डेटा प्रकार का वर्णन करता है।

  • namespace - यह फ़ील्ड उस नामस्थान का नाम बताती है जिसमें ऑब्जेक्ट रहता है।

  • name - यह फील्ड डॉक्यूमेंट के साथ-साथ फील्ड नाम के फील्ड के तहत आती है।

    • दस्तावेज़ के मामले में, यह स्कीमा नाम का वर्णन करता है। यह स्कीमा नाम नेमस्पेस के साथ जोड़ा, विशिष्ट रूप से स्टोर के भीतर स्कीमा की पहचान करता है (Namespace.schema name)। उपरोक्त उदाहरण में, स्कीमा का पूरा नाम Tutorialspoint.Employee होगा।

    • खेतों के मामले में, यह क्षेत्र के नाम का वर्णन करता है।

एवरो के आदिम डेटा प्रकार

एवरो स्कीमा में आदिम डेटा प्रकार के साथ-साथ जटिल डेटा प्रकार होते हैं। निम्न तालिका वर्णन करती हैprimitive data types एवरो की -

डाटा प्रकार विवरण
शून्य नल एक प्रकार है जिसका कोई मूल्य नहीं है।
पूर्णांक 32-बिट हस्ताक्षरित पूर्णांक।
लंबा 64-बिट हस्ताक्षरित पूर्णांक।
नाव एकल परिशुद्धता (32-बिट) IEEE 754 फ़्लोटिंग-पॉइंट संख्या।
दोहरा डबल सटीक (64-बिट) IEEE 754 फ़्लोटिंग-पॉइंट संख्या।
बाइट्स 8-बिट अहस्ताक्षरित बाइट्स का क्रम।
तार यूनिकोड वर्ण क्रम।

एवरो के जटिल डेटा प्रकार

आदिम डेटा प्रकारों के साथ, एवरो छह जटिल डेटा प्रकार प्रदान करता है, जैसे रिकॉर्ड्स, एनम, एरेज़, मैप्स, यूनियंस और फिक्स्ड।

अभिलेख

एवरो में एक रिकॉर्ड डेटा प्रकार कई विशेषताओं का एक संग्रह है। यह निम्नलिखित विशेषताओं का समर्थन करता है -

  • name - इस फ़ील्ड का मान रिकॉर्ड का नाम रखता है।

  • namespace - इस फ़ील्ड का मान उस नाम स्थान का नाम रखता है जहाँ ऑब्जेक्ट संग्रहीत है।

  • type - इस विशेषता का मान या तो दस्तावेज़ के प्रकार (रिकॉर्ड) या स्कीमा में फ़ील्ड का डेटाटाइप रखता है।

  • fields - यह फ़ील्ड JSON सरणी रखती है, जिसमें स्कीमा में सभी फ़ील्ड्स की सूची होती है, प्रत्येक में नाम और प्रकार की विशेषताएँ होती हैं।

Example

नीचे दिए गए एक रिकॉर्ड का उदाहरण है।

{
" type " : "record",
" namespace " : "Tutorialspoint",
" name " : "Employee",
" fields " : [
 { "name" : " Name" , "type" : "string" },
 { "name" : "age" , "type" : "int" }
 ]
}

enum

एक संग्रह में वस्तुओं की एक सूची है, एवरो गणन निम्नलिखित विशेषताओं का समर्थन करता है -

  • name - इस क्षेत्र का मान गणना का नाम है।

  • namespace - इस फ़ील्ड के मान में स्ट्रिंग है जो एन्यूमरेशन के नाम को योग्य बनाता है।

  • symbols - इस क्षेत्र का मान नाम की एक सरणी के रूप में एनम के प्रतीकों को रखता है।

Example

नीचे दिए गए एक गणना का उदाहरण है।

{
   "type" : "enum",
   "name" : "Numbers", 
   "namespace": "data", 
   "symbols" : [ "ONE", "TWO", "THREE", "FOUR" ]
}

सरणियों

यह डेटा प्रकार एकल विशेषता आइटम वाले एक सरणी फ़ील्ड को परिभाषित करता है। यह आइटम विशेषता सरणी में आइटम के प्रकार को निर्दिष्ट करता है।

Example

{ " type " : " array ", " items " : " int " }

एमएपीएस

मानचित्र डेटा प्रकार कुंजी-मूल्य जोड़े का एक सरणी है, यह डेटा को कुंजी-मूल्य जोड़े के रूप में व्यवस्थित करता है। एवरो मैप की कुंजी एक स्ट्रिंग होनी चाहिए। मानचित्र के मान मानचित्र की सामग्री का डेटा प्रकार रखते हैं।

Example

{"type" : "map", "values" : "int"}

यूनियन

जब भी फ़ील्ड में एक या एक से अधिक डेटाटाइप होते हैं, तो यूनियन डेटाटाइप का उपयोग किया जाता है। उन्हें JSON सरणियों के रूप में दर्शाया गया है। उदाहरण के लिए, यदि ऐसा क्षेत्र जो इंट या नल हो सकता है, तो संघ का प्रतिनिधित्व "" इंट "," अशक्त "] के रूप में किया जाता है।

Example

नीचे एक उदाहरण दिया गया है जो यूनियनों का उपयोग करते हुए एक दस्तावेज है -

{ 
   "type" : "record", 
   "namespace" : "tutorialspoint", 
   "name" : "empdetails ", 
   "fields" : 
   [ 
      { "name" : "experience", "type": ["int", "null"] }, { "name" : "age", "type": "int" } 
   ] 
}

फिक्स्ड

इस डेटा प्रकार का उपयोग निश्चित आकार के क्षेत्र को घोषित करने के लिए किया जाता है जिसका उपयोग बाइनरी डेटा को संग्रहीत करने के लिए किया जा सकता है। इसमें फीचर्स के रूप में फील्ड नेम और डेटा है। नाम फ़ील्ड का नाम रखता है, और आकार फ़ील्ड का आकार रखता है।

Example

{ "type" : "fixed" , "name" : "bdata", "size" : 1048576}

पिछले अध्याय में, हमने एवरो के इनपुट प्रकार का वर्णन किया, अर्थात, एवरो स्कीमास। इस अध्याय में, हम एवरो स्कीमा के क्रमांकन और डीरियलाइज़ेशन में उपयोग की जाने वाली कक्षाओं और विधियों की व्याख्या करेंगे।

स्पेसिफिकैटमवट्राइटर क्लास

यह वर्ग पैकेज का है org.apache.avro.specific। यह लागू करता हैDatumWriter इंटरफ़ेस जो जावा ऑब्जेक्ट्स को इन-मेमोरी क्रमबद्ध प्रारूप में परिवर्तित करता है।

निर्माता

क्र.सं. विवरण
1 SpecificDatumWriter(Schema schema)

तरीका

क्र.सं. विवरण
1

SpecificData getSpecificData()

इस लेखक द्वारा उपयोग किए गए SpecificData कार्यान्वयन देता है।

SpecificDatumReader वर्ग

यह वर्ग पैकेज का है org.apache.avro.specific। यह लागू करता हैDatumReader इंटरफ़ेस जो स्कीमा के डेटा को पढ़ता है और इन-मेमोरी डेटा प्रतिनिधित्व निर्धारित करता है। SpecificDatumReader वह वर्ग है जो उत्पन्न जावा वर्गों का समर्थन करता है।

निर्माता

क्र.सं. विवरण
1

SpecificDatumReader(Schema schema)

निर्माण जहां लेखक और पाठक के स्कीमा समान हैं।

तरीकों

क्र.सं. विवरण
1

SpecificData getSpecificData()

निहित SpecificData लौटाता है।

2

void setSchema(Schema actual)

इस विधि का उपयोग लेखक के स्कीमा को सेट करने के लिए किया जाता है।

DataFileWriter

को दर्शाता है DataFileWrite के लिये empकक्षा। यह वर्ग एक स्कीमा के अनुरूप डेटा के क्रमबद्ध क्रमबद्ध रिकॉर्ड को एक फाइल में स्कीमा के साथ लिखता है।

निर्माता

क्र.सं. विवरण
1 DataFileWriter(DatumWriter<D> dout)

तरीकों

S.No विवरण
1

void append(D datum)

एक फाइल के लिए एक डाटा जमा करता है।

2

DataFileWriter<D> appendTo(File file)

इस पद्धति का उपयोग किसी लेखक को किसी मौजूदा फ़ाइल को खोलने के लिए किया जाता है।

डाटा फाइलर

यह क्लास लिखी गई फाइलों को रैंडम एक्सेस प्रदान करती है DataFileWriter। यह वर्ग को विरासत में मिलता हैDataFileStream

निर्माता

क्र.सं. विवरण
1 DataFileReader(File file, DatumReader<D> reader))

तरीकों

क्र.सं. विवरण
1

next()

फ़ाइल में अगले डेटा को पढ़ता है।

2

Boolean hasNext()

यदि इस फ़ाइल में अधिक प्रविष्टियाँ रहती हैं, तो यह सही है।

कक्षा स्कीमा.पर

यह वर्ग JSON- प्रारूप स्कीमा के लिए एक पार्सर है। इसमें स्कीमा को पार्स करने के तरीके हैं। यह इससे संबंधित हैorg.apache.avro पैकेज।

निर्माता

क्र.सं. विवरण
1 Schema.Parser()

तरीकों

क्र.सं. विवरण
1

parse (File file)

दिए गए स्कीमा को पार्स करता है file

2

parse (InputStream in)

दिए गए स्कीमा को पार्स करता है InputStream

3

parse (String s)

दिए गए स्कीमा को पार्स करता है String

इंटरफ़ेस GenricRecord

यह इंटरफ़ेस खेतों को नाम के साथ-साथ अनुक्रमणिका तक पहुँचाने के तरीके प्रदान करता है।

तरीकों

क्र.सं. विवरण
1

Object get(String key)

दिए गए क्षेत्र का मान लौटाता है।

2

void put(String key, Object v)

एक फ़ील्ड का मान सेट करता है जिसे उसका नाम दिया गया है।

कक्षा GenericData.Record

निर्माता

क्र.सं. विवरण
1 GenericData.Record(Schema schema)

तरीकों

क्र.सं. विवरण
1

Object get(String key)

दिए गए नाम के फ़ील्ड का मान लौटाता है।

2

Schema getSchema()

इस उदाहरण का स्कीमा लौटाता है।

3

void put(int i, Object v)

स्कीमा में अपनी स्थिति को देखते हुए किसी फ़ील्ड का मान सेट करता है।

4

void put(String key, Object value)

एक फ़ील्ड का मान सेट करता है जिसे उसका नाम दिया गया है।

एक कार्यक्रम में एवरो स्कीमा पढ़ सकते हैं या तो एक स्कीमा के अनुरूप एक वर्ग उत्पन्न करके या पार्सर्स लाइब्रेरी का उपयोग करके। यह अध्याय स्कीमा को पढ़ने का तरीका बताता हैby generating a class तथा Serializing Avr का उपयोग कर डेटा।

एक वर्ग उत्पन्न करके सीरियल

एवरो का उपयोग करके डेटा को क्रमबद्ध करने के लिए, नीचे दिए गए चरणों का पालन करें -

  • एवरो स्कीमा लिखें।

  • एवरो उपयोगिता का उपयोग करके स्कीमा को संकलित करें। आपको उस स्कीमा के अनुरूप जावा कोड मिलता है।

  • स्कीमा को डेटा के साथ पॉप्युलेट करें।

  • एवरो लाइब्रेरी का उपयोग करके इसे सीरियल करें।

स्कीमा को परिभाषित करना

मान लीजिए कि आप निम्नलिखित विवरण के साथ एक स्कीमा चाहते हैं -

Field नाम ईद उम्र वेतन पता
type तार पूर्णांक पूर्णांक पूर्णांक तार

नीचे दिखाए गए अनुसार एक एरो स्कीमा बनाएँ।

इसे इस रूप में सहेजें emp.avsc

{
   "namespace": "tutorialspoint.com",
   "type": "record",
   "name": "emp",
   "fields": [
      {"name": "name", "type": "string"},
      {"name": "id", "type": "int"},
      {"name": "salary", "type": "int"},
      {"name": "age", "type": "int"},
      {"name": "address", "type": "string"}
   ]
}

स्कीमा का संकलन

एवरो स्कीमा बनाने के बाद, आपको एवरो टूल का उपयोग करके बनाए गए स्कीमा को संकलित करने की आवश्यकता है। avro-tools-1.7.7.jar उपकरण युक्त जार है।

एवरो स्कीमा को संकलित करने के लिए सिंटैक्स

java -jar <path/to/avro-tools-1.7.7.jar> compile schema <path/to/schema-file> <destination-folder>

होम फोल्डर में टर्मिनल खोलें।

एवरो के साथ काम करने के लिए एक नई निर्देशिका बनाएं जैसा कि नीचे दिखाया गया है -

$ mkdir Avro_Work

नई बनाई गई निर्देशिका में, तीन उप-निर्देशिकाएं बनाएं -

  • पहले नाम दिया schema, स्कीमा रखने के लिए।

  • दूसरा नाम with_code_gen, उत्पन्न कोड रखने के लिए।

  • तीसरा नाम jars, जार फ़ाइलों को रखने के लिए।

$ mkdir schema
$ mkdir with_code_gen
$ mkdir jars

निम्न स्क्रीनशॉट से पता चलता है कि आपका कैसे Avro_work फ़ोल्डर को सभी निर्देशिकाओं को बनाने के बाद दिखना चाहिए।

  • अभी /home/Hadoop/Avro_work/jars/avro-tools-1.7.7.jar उस निर्देशिका के लिए पथ है जहाँ आपने avro-tools-1.7.7.jar फ़ाइल डाउनलोड की है।

  • /home/Hadoop/Avro_work/schema/ उस निर्देशिका के लिए पथ है जहाँ आपका स्कीमा फ़ाइल emp.avsc संग्रहीत है।

  • /home/Hadoop/Avro_work/with_code_gen वह निर्देशिका है जहां आप चाहते हैं कि जनरेट की गई फ़ाइल संग्रहीत की जाए।

अब नीचे दिखाए अनुसार स्कीमा संकलित करें -

$ java -jar /home/Hadoop/Avro_work/jars/avro-tools-1.7.7.jar compile schema /home/Hadoop/Avro_work/schema/emp.avsc /home/Hadoop/Avro/with_code_gen

संकलन करने के बाद, गंतव्य निर्देशिका में स्कीमा के नाम स्थान के अनुसार एक पैकेज बनाया जाता है। इस पैकेज के भीतर, स्कीमा नाम के साथ जावा स्रोत कोड बनाया गया है। यह उत्पन्न स्रोत कोड दिए गए स्कीमा का जावा कोड है जिसे सीधे अनुप्रयोगों में उपयोग किया जा सकता है।

उदाहरण के लिए, इस उदाहरण में एक पैकेज / फ़ोल्डर, जिसका नाम है tutorialspoint बनाया गया है जिसमें कॉम नाम का एक और फ़ोल्डर है (चूंकि नाम स्थान tutorialspoint.com है) और इसके भीतर, आप उत्पन्न फ़ाइल का निरीक्षण कर सकते हैं emp.java। निम्नलिखित स्नैपशॉट दिखाता हैemp.java -

यह वर्ग स्कीमा के अनुसार डेटा बनाने के लिए उपयोगी है।

उत्पन्न वर्ग में शामिल हैं -

  • डिफ़ॉल्ट कंस्ट्रक्टर, और पैरामीटर किए गए कंस्ट्रक्टर जो स्कीमा के सभी चर स्वीकार करते हैं।
  • स्कीमा में सभी चर के लिए सेटर और गेट्टर विधियाँ।
  • प्राप्त करें () विधि जो स्कीमा लौटाती है।
  • बिल्डर के तरीके।

डेटा बनाना और सीरियल करना

सबसे पहले, इस परियोजना में उपयोग की गई उत्पन्न जावा फ़ाइल को वर्तमान निर्देशिका में कॉपी करें या जहां स्थित है वहां से आयात करें।

अब हम एक नई जावा फ़ाइल लिख सकते हैं और उत्पन्न फ़ाइल में कक्षा को तुरंत लिख सकते हैं (emp) स्कीमा में कर्मचारी डेटा जोड़ने के लिए।

आइए हम अपाचे एवरो का उपयोग करके स्कीमा के अनुसार डेटा बनाने की प्रक्रिया देखें।

चरण 1

तुरंत उत्पन्न emp कक्षा।

emp e1=new emp( );

चरण 2

सेटर विधियों का उपयोग करते हुए, पहले कर्मचारी का डेटा डालें। उदाहरण के लिए, हमने उमर नाम के कर्मचारी का विवरण बनाया है।

e1.setName("omar");
e1.setAge(21);
e1.setSalary(30000);
e1.setAddress("Hyderabad");
e1.setId(001);

इसी तरह, सेटर विधियों का उपयोग करके सभी कर्मचारी विवरण भरें।

चरण 3

का एक ऑब्जेक्ट बनाएँ DatumWriter इंटरफ़ेस का उपयोग कर SpecificDatumWriterकक्षा। यह जावा वस्तुओं को इन-मेमोरी क्रमबद्ध प्रारूप में परिवर्तित करता है। निम्न उदाहरण तात्कालिक हैSpecificDatumWriter के लिए वर्ग वस्तु emp कक्षा।

DatumWriter<emp> empDatumWriter = new SpecificDatumWriter<emp>(emp.class);

चरण 4

इन्स्तांत करना DataFileWriter के लिये empकक्षा। यह वर्ग स्कीमा के अनुरूप डेटा के क्रमबद्ध क्रमबद्ध रिकॉर्ड को, स्कीमा के साथ ही, एक फाइल में लिखता है। इस वर्ग की आवश्यकता हैDatumWriter ऑब्जेक्ट, कंस्ट्रक्टर के पैरामीटर के रूप में।

DataFileWriter<emp> empFileWriter = new DataFileWriter<emp>(empDatumWriter);

चरण 5

उपयोग किए गए स्कीमा से मेल खाते डेटा को संग्रहीत करने के लिए एक नई फ़ाइल खोलें create()तरीका। इस पद्धति के लिए स्कीमा की आवश्यकता होती है, और फ़ाइल का पथ जहां डेटा संग्रहीत किया जाना है, मापदंडों के रूप में।

निम्नलिखित उदाहरण में, स्कीमा का उपयोग करके पारित किया जाता है getSchema() विधि, और डेटा फ़ाइल पथ में संग्रहीत है - /home/Hadoop/Avro/serialized_file/emp.avro.

empFileWriter.create(e1.getSchema(),new File("/home/Hadoop/Avro/serialized_file/emp.avro"));

चरण 6

फ़ाइल का उपयोग करके सभी बनाए गए रिकॉर्ड जोड़ें append() नीचे दिखाए अनुसार विधि -

empFileWriter.append(e1);
empFileWriter.append(e2);
empFileWriter.append(e3);

उदाहरण - एक वर्ग उत्पन्न करके सीरियल

निम्न पूरा कार्यक्रम दिखाता है कि अपाचे एवरो का उपयोग करके किसी फ़ाइल में डेटा को कैसे वर्गीकृत किया जाए -

import java.io.File;
import java.io.IOException;

import org.apache.avro.file.DataFileWriter;
import org.apache.avro.io.DatumWriter;
import org.apache.avro.specific.SpecificDatumWriter;

public class Serialize {
   public static void main(String args[]) throws IOException{
	
      //Instantiating generated emp class
      emp e1=new emp();
	
      //Creating values according the schema
      e1.setName("omar");
      e1.setAge(21);
      e1.setSalary(30000);
      e1.setAddress("Hyderabad");
      e1.setId(001);
	
      emp e2=new emp();
	
      e2.setName("ram");
      e2.setAge(30);
      e2.setSalary(40000);
      e2.setAddress("Hyderabad");
      e2.setId(002);
	
      emp e3=new emp();
	
      e3.setName("robbin");
      e3.setAge(25);
      e3.setSalary(35000);
      e3.setAddress("Hyderabad");
      e3.setId(003);
	
      //Instantiate DatumWriter class
      DatumWriter<emp> empDatumWriter = new SpecificDatumWriter<emp>(emp.class);
      DataFileWriter<emp> empFileWriter = new DataFileWriter<emp>(empDatumWriter);
	
      empFileWriter.create(e1.getSchema(), new File("/home/Hadoop/Avro_Work/with_code_gen/emp.avro"));
	
      empFileWriter.append(e1);
      empFileWriter.append(e2);
      empFileWriter.append(e3);
	
      empFileWriter.close();
	
      System.out.println("data successfully serialized");
   }
}

उस निर्देशिका के माध्यम से ब्राउज़ करें जहां उत्पन्न कोड रखा गया है। इस मामले में, परhome/Hadoop/Avro_work/with_code_gen

In Terminal −

$ cd home/Hadoop/Avro_work/with_code_gen/

In GUI −

अब नाम की फाइल में उपरोक्त प्रोग्राम को कॉपी और सेव करें Serialize.java

नीचे दिखाए अनुसार इसे संकलित और निष्पादित करें -

$ javac Serialize.java
$ java Serialize

उत्पादन

data successfully serialized

यदि आप प्रोग्राम में दिए गए पथ को सत्यापित करते हैं, तो आप नीचे दिखाए गए अनुसार उत्पन्न क्रमबद्ध फ़ाइल पा सकते हैं।

जैसा कि पहले बताया गया है, एक एवरो स्कीमा को प्रोग्राम में या तो स्कीमा के अनुरूप वर्ग उत्पन्न करके या पार्स लाइब्रेरी का उपयोग करके पढ़ा जा सकता है। यह अध्याय स्कीमा को पढ़ने का तरीका बताता हैby generating a class तथा Deserialize एवरो का उपयोग कर डेटा।

एक वर्ग उत्पन्न करके देशद्रोह

सीरियल किए गए डेटा को फ़ाइल में संग्रहीत किया जाता है emp.avro। आप एवरो का उपयोग करके इसे डीरिशियल कर सकते हैं और पढ़ सकते हैं।

एक फ़ाइल से क्रमबद्ध डेटा को डीरियलाइज़ करने के लिए नीचे दी गई प्रक्रिया का पालन करें।

चरण 1

का एक ऑब्जेक्ट बनाएँ DatumReader इंटरफ़ेस का उपयोग कर SpecificDatumReader कक्षा।

DatumReader<emp>empDatumReader = new SpecificDatumReader<emp>(emp.class);

चरण 2

इन्स्तांत करना DataFileReader के लिये empकक्षा। यह वर्ग किसी फ़ाइल से क्रमबद्ध डेटा पढ़ता है। इसकी आवश्यकता हैDataumeader ऑब्जेक्ट और फ़ाइल का पथ जहां सीरियल किए गए डेटा मौजूद हैं, निर्माणकर्ता के लिए एक पैरामीटर के रूप में।

DataFileReader<emp> dataFileReader = new DataFileReader(new File("/path/to/emp.avro"), empDatumReader);

चरण 3

के तरीकों का उपयोग करते हुए, डिसेररलाइज्ड डेटा प्रिंट करें DataFileReader

  • hasNext() विधि रीडर में कोई तत्व होने पर एक बूलियन लौटाएगा।

  • next() उसकि विधि DataFileReader रीडर में डेटा लौटाता है।

while(dataFileReader.hasNext()){

   em=dataFileReader.next(em);
   System.out.println(em);
}

उदाहरण - एक वर्ग उत्पन्न करके देशीकरण

निम्न पूरा कार्यक्रम दिखाता है कि एवरो का उपयोग करके किसी फ़ाइल में डेटा को कैसे निष्क्रिय किया जाए।

import java.io.File;
import java.io.IOException;

import org.apache.avro.file.DataFileReader;
import org.apache.avro.io.DatumReader;
import org.apache.avro.specific.SpecificDatumReader;

public class Deserialize {
   public static void main(String args[]) throws IOException{
	
      //DeSerializing the objects
      DatumReader<emp> empDatumReader = new SpecificDatumReader<emp>(emp.class);
		
      //Instantiating DataFileReader
      DataFileReader<emp> dataFileReader = new DataFileReader<emp>(new
         File("/home/Hadoop/Avro_Work/with_code_genfile/emp.avro"), empDatumReader);
      emp em=null;
		
      while(dataFileReader.hasNext()){
      
         em=dataFileReader.next(em);
         System.out.println(em);
      }
   }
}

उस निर्देशिका में ब्राउज़ करें जहां उत्पन्न कोड रखा गया है। इस मामले में, परhome/Hadoop/Avro_work/with_code_gen.

$ cd home/Hadoop/Avro_work/with_code_gen/

अब, नामित फ़ाइल में उपरोक्त कार्यक्रम को कॉपी और सहेजें DeSerialize.java। नीचे दिखाए अनुसार इसे संकलित और निष्पादित करें -

$ javac Deserialize.java
$ java Deserialize

उत्पादन

{"name": "omar", "id": 1, "salary": 30000, "age": 21, "address": "Hyderabad"}
{"name": "ram", "id": 2, "salary": 40000, "age": 30, "address": "Hyderabad"}
{"name": "robbin", "id": 3, "salary": 35000, "age": 25, "address": "Hyderabad"}

एक एवरो स्कीमा को एक प्रोग्राम में पढ़ सकते हैं या तो स्कीमा के अनुरूप वर्ग उत्पन्न करके या पार्सर लाइब्रेरी का उपयोग करके। एवरो में, डेटा हमेशा अपने संबंधित स्कीमा के साथ संग्रहीत किया जाता है। इसलिए, हम हमेशा कोड पीढ़ी के बिना एक स्कीमा पढ़ सकते हैं।

यह अध्याय स्कीमा को पढ़ने का तरीका बताता है by using parsers library और करने के लिए serialize एवरो का उपयोग कर डेटा।

पार्सर्स लाइब्रेरी का उपयोग करके सीरियलाइज़ेशन

डेटा को क्रमबद्ध करने के लिए, हमें स्कीमा को पढ़ना होगा, स्कीमा के अनुसार डेटा बनाना होगा और एविए एपीआई का उपयोग करके स्कीमा को क्रमबद्ध करना होगा। निम्नलिखित प्रक्रिया किसी भी कोड को उत्पन्न किए बिना डेटा को क्रमबद्ध करती है -

चरण 1

सबसे पहले, फ़ाइल से स्कीमा पढ़ें। ऐसा करने के लिए, का उपयोग करेंSchema.Parserकक्षा। यह वर्ग विभिन्न स्वरूपों में स्कीमा को पार्स करने के तरीके प्रदान करता है।

झटपट Schema.Parser उस फ़ाइल पथ को पास करके वर्ग जहाँ स्कीमा संग्रहीत है।

Schema schema = new Schema.Parser().parse(new File("/path/to/emp.avsc"));

चरण 2

की वस्तु बनाएँ GenericRecord इंटरफ़ेस, झटपट द्वारा GenericData.Recordनीचे दिखाया गया है। इसके निर्माता के लिए ऊपर बनाई गई स्कीमा ऑब्जेक्ट पास करें।

GenericRecord e1 = new GenericData.Record(schema);

चरण 3

स्कीमा का उपयोग करके मान डालें put() की विधि GenericData कक्षा।

e1.put("name", "ramu");
e1.put("id", 001);
e1.put("salary",30000);
e1.put("age", 25);
e1.put("address", "chennai");

चरण 4

का एक ऑब्जेक्ट बनाएँ DatumWriter इंटरफ़ेस का उपयोग कर SpecificDatumWriterकक्षा। यह जावा वस्तुओं को इन-मेमोरी क्रमबद्ध प्रारूप में परिवर्तित करता है। निम्न उदाहरण तात्कालिक हैSpecificDatumWriter के लिए वर्ग वस्तु emp वर्ग -

DatumWriter<emp> empDatumWriter = new SpecificDatumWriter<emp>(emp.class);

चरण 5

इन्स्तांत करना DataFileWriter के लिये empकक्षा। यह वर्ग स्कीमा के अनुरूप डेटा के क्रमबद्ध रिकॉर्ड लिखता है, स्कीमा के साथ ही, एक फाइल में। इस वर्ग की आवश्यकता हैDatumWriter ऑब्जेक्ट, कंस्ट्रक्टर के पैरामीटर के रूप में।

DataFileWriter<emp> dataFileWriter = new DataFileWriter<emp>(empDatumWriter);

चरण 6

उपयोग किए गए स्कीमा से मेल खाते डेटा को संग्रहीत करने के लिए एक नई फ़ाइल खोलें create()तरीका। इस पद्धति के लिए स्कीमा की आवश्यकता होती है, और फ़ाइल का पथ जहां डेटा संग्रहीत किया जाना है, मापदंडों के रूप में।

नीचे दिए गए उदाहरण में, स्कीमा का उपयोग करके पारित किया गया है getSchema() विधि और डेटा फ़ाइल पथ में संग्रहीत है

/home/Hadoop/Avro/serialized_file/emp.avro.

empFileWriter.create(e1.getSchema(), new
File("/home/Hadoop/Avro/serialized_file/emp.avro"));

चरण 7

फ़ाइल का उपयोग करके सभी बनाए गए रिकॉर्ड जोड़ें append( ) नीचे दिखाए अनुसार विधि।

empFileWriter.append(e1);
empFileWriter.append(e2);
empFileWriter.append(e3);

उदाहरण - पार्सर्स के उपयोग से क्रमांकन

निम्न पूरा कार्यक्रम दिखाता है कि पार्सर्स का उपयोग करके डेटा को कैसे क्रमबद्ध किया जाए -

import java.io.File;
import java.io.IOException;

import org.apache.avro.Schema;
import org.apache.avro.file.DataFileWriter;

import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericDatumWriter;
import org.apache.avro.generic.GenericRecord;

import org.apache.avro.io.DatumWriter;

public class Seriali {
   public static void main(String args[]) throws IOException{
	
      //Instantiating the Schema.Parser class.
      Schema schema = new Schema.Parser().parse(new File("/home/Hadoop/Avro/schema/emp.avsc"));
		
      //Instantiating the GenericRecord class.
      GenericRecord e1 = new GenericData.Record(schema);
		
      //Insert data according to schema
      e1.put("name", "ramu");
      e1.put("id", 001);
      e1.put("salary",30000);
      e1.put("age", 25);
      e1.put("address", "chenni");
		
      GenericRecord e2 = new GenericData.Record(schema);
		
      e2.put("name", "rahman");
      e2.put("id", 002);
      e2.put("salary", 35000);
      e2.put("age", 30);
      e2.put("address", "Delhi");
		
      DatumWriter<GenericRecord> datumWriter = new GenericDatumWriter<GenericRecord>(schema);
		
      DataFileWriter<GenericRecord> dataFileWriter = new DataFileWriter<GenericRecord>(datumWriter);
      dataFileWriter.create(schema, new File("/home/Hadoop/Avro_work/without_code_gen/mydata.txt"));
		
      dataFileWriter.append(e1);
      dataFileWriter.append(e2);
      dataFileWriter.close();
		
      System.out.println(“data successfully serialized”);
   }
}

उस निर्देशिका में ब्राउज़ करें जहां उत्पन्न कोड रखा गया है। इस मामले में, परhome/Hadoop/Avro_work/without_code_gen

$ cd home/Hadoop/Avro_work/without_code_gen/

अब नाम की फाइल में उपरोक्त प्रोग्राम को कॉपी और सेव करें Serialize.java। नीचे दिखाए अनुसार इसे संकलित और निष्पादित करें -

$ javac Serialize.java
$ java Serialize

उत्पादन

data successfully serialized

यदि आप प्रोग्राम में दिए गए पथ को सत्यापित करते हैं, तो आप नीचे दिखाए गए अनुसार उत्पन्न क्रमबद्ध फ़ाइल पा सकते हैं।

जैसा कि पहले उल्लेख किया गया है, एक एवरो स्कीमा को प्रोग्राम में या तो स्कीमा के अनुरूप वर्ग उत्पन्न करके या पार्स लाइब्रेरी का उपयोग करके पढ़ा जा सकता है। एवरो में, डेटा हमेशा अपने संबंधित स्कीमा के साथ संग्रहीत किया जाता है। इसलिए, हम हमेशा कोड पीढ़ी के बिना एक क्रमबद्ध आइटम पढ़ सकते हैं।

यह अध्याय स्कीमा को पढ़ने का तरीका बताता है using parsers library तथा Deserializing एवरो का उपयोग कर डेटा।

पार्सर्स लाइब्रेरी का उपयोग करते हुए देशीकरण

सीरियल किए गए डेटा को फ़ाइल में संग्रहीत किया जाता है mydata.txt। आप एवरो का उपयोग करके इसे डीरिशियल कर सकते हैं और पढ़ सकते हैं।

एक फ़ाइल से क्रमबद्ध डेटा को डीरियलाइज़ करने के लिए नीचे दी गई प्रक्रिया का पालन करें।

चरण 1

सबसे पहले, फ़ाइल से स्कीमा पढ़ें। ऐसा करने के लिए, का उपयोग करेंSchema.Parserकक्षा। यह वर्ग विभिन्न स्वरूपों में स्कीमा को पार्स करने के तरीके प्रदान करता है।

झटपट Schema.Parser उस फ़ाइल पथ को पास करके वर्ग जहाँ स्कीमा संग्रहीत है।

Schema schema = new Schema.Parser().parse(new File("/path/to/emp.avsc"));

चरण 2

का एक ऑब्जेक्ट बनाएँ DatumReader इंटरफ़ेस का उपयोग कर SpecificDatumReader कक्षा।

DatumReader<emp>empDatumReader = new SpecificDatumReader<emp>(emp.class);

चरण 3

इन्स्तांत करना DataFileReaderकक्षा। यह वर्ग किसी फ़ाइल से क्रमबद्ध डेटा पढ़ता है। इसकी आवश्यकता हैDatumReader ऑब्जेक्ट और फ़ाइल का पथ जहाँ सीरियल डेटा मौजूद है, निर्माणकर्ता के लिए एक पैरामीटर के रूप में।

DataFileReader<GenericRecord> dataFileReader = new DataFileReader<GenericRecord>(new File("/path/to/mydata.txt"), datumReader);

चरण 4

के तरीकों का उपयोग करते हुए, डिसेररलाइज्ड डेटा प्रिंट करें DataFileReader

  • hasNext() विधि रीडर में कोई तत्व होने पर एक बूलियन देता है।

  • next() उसकि विधि DataFileReader रीडर में डेटा लौटाता है।

while(dataFileReader.hasNext()){

   em=dataFileReader.next(em);
   System.out.println(em);
}

उदाहरण - पार्सर्स लाइब्रेरी का उपयोग करते हुए देशीकरण

निम्न पूरा कार्यक्रम दिखाता है कि पार्सर्स लाइब्रेरी का उपयोग करके क्रमबद्ध डेटा को कैसे निष्क्रिय किया जाए -

public class Deserialize {
   public static void main(String args[]) throws Exception{
	
      //Instantiating the Schema.Parser class.
      Schema schema = new Schema.Parser().parse(new File("/home/Hadoop/Avro/schema/emp.avsc"));
      DatumReader<GenericRecord> datumReader = new GenericDatumReader<GenericRecord>(schema);
      DataFileReader<GenericRecord> dataFileReader = new DataFileReader<GenericRecord>(new File("/home/Hadoop/Avro_Work/without_code_gen/mydata.txt"), datumReader);
      GenericRecord emp = null;
		
      while (dataFileReader.hasNext()) {
         emp = dataFileReader.next(emp);
         System.out.println(emp);
      }
      System.out.println("hello");
   }
}

उस निर्देशिका में ब्राउज़ करें जहां उत्पन्न कोड रखा गया है। इस मामले में, यह पर हैhome/Hadoop/Avro_work/without_code_gen

$ cd home/Hadoop/Avro_work/without_code_gen/

अब नाम की फाइल में उपरोक्त प्रोग्राम को कॉपी और सेव करें DeSerialize.java। नीचे दिखाए अनुसार इसे संकलित और निष्पादित करें -

$ javac Deserialize.java
$ java Deserialize

उत्पादन

{"name": "ramu", "id": 1, "salary": 30000, "age": 25, "address": "chennai"}
{"name": "rahman", "id": 2, "salary": 35000, "age": 30, "address": "Delhi"}