एवीआरओ - सीरियल

डेटा दो उद्देश्यों के लिए क्रमबद्ध है -

  • लगातार भंडारण के लिए

  • नेटवर्क पर डेटा ट्रांसपोर्ट करने के लिए

Serialization क्या है?

सीरियलाइज़ेशन डेटा संरचनाओं या ऑब्जेक्ट्स को बाइनरी या टेक्स्टुअल रूप में ट्रांसलेट करने की प्रक्रिया है जो डेटा को नेटवर्क पर ट्रांसपोर्ट करने के लिए या कुछ स्थायी स्टोरेज पर स्टोर करने के लिए है। एक बार जब डेटा को नेटवर्क पर ले जाया जाता है या लगातार भंडारण से पुनर्प्राप्त किया जाता है, तो इसे फिर से निष्क्रिय करने की आवश्यकता होती है। सीरियलाइजेशन को कहा जाता हैmarshalling और deserialization के रूप में कहा जाता है unmarshalling

जावा में क्रमांकन

जावा एक तंत्र प्रदान करता है, जिसे कहा जाता है object serialization जहाँ किसी ऑब्जेक्ट को बाइट्स के अनुक्रम के रूप में दर्शाया जा सकता है जिसमें ऑब्जेक्ट के डेटा के साथ-साथ ऑब्जेक्ट के प्रकार और ऑब्जेक्ट में संग्रहीत डेटा के प्रकार के बारे में जानकारी शामिल होती है।

किसी सीरियल किए गए ऑब्जेक्ट को फ़ाइल में लिखे जाने के बाद, इसे फ़ाइल से पढ़ा जा सकता है और डीसर्विलाइज़ किया जा सकता है। अर्थात्, प्रकार की जानकारी और बाइट्स जो ऑब्जेक्ट का प्रतिनिधित्व करते हैं और इसके डेटा का उपयोग मेमोरी में ऑब्जेक्ट को फिर से बनाने के लिए किया जा सकता है।

ObjectInputStream तथा ObjectOutputStream जावा में क्रमशः किसी ऑब्जेक्ट को क्रमबद्ध करने और उसे अलग करने के लिए कक्षाओं का उपयोग किया जाता है।

Hadoop में सीरियल

आमतौर पर Hadoop जैसी वितरित प्रणालियों में, क्रमांकन की अवधारणा का उपयोग किया जाता है Interprocess Communication तथा Persistent Storage

अंतःप्रक्रम संचार

  • एक नेटवर्क में जुड़े नोड्स के बीच इंटरप्रोसेस संचार स्थापित करने के लिए, आरपीसी तकनीक का उपयोग किया गया था।

  • आरपीसी ने नेटवर्क के माध्यम से दूरस्थ नोड पर भेजने से पहले संदेश को बाइनरी प्रारूप में बदलने के लिए आंतरिक क्रमांकन का उपयोग किया। दूसरे छोर पर रिमोट सिस्टम मूल संदेश में बाइनरी स्ट्रीम को deserializes।

  • आरपीसी क्रमांकन प्रारूप निम्नानुसार होना आवश्यक है -

    • Compact - नेटवर्क बैंडविड्थ का सबसे अच्छा उपयोग करने के लिए, जो डेटा सेंटर में सबसे दुर्लभ संसाधन है।

    • Fast - चूंकि वितरित सिस्टम में नोड्स के बीच संचार महत्वपूर्ण है, इसलिए कम ओवरहेड का उत्पादन करते हुए क्रमबद्धता और डिसेरिएलाइज़ेशन प्रक्रिया त्वरित होनी चाहिए।

    • Extensible - नई आवश्यकताओं को पूरा करने के लिए प्रोटोकॉल समय के साथ बदलते हैं, इसलिए क्लाइंट और सर्वर के लिए नियंत्रित तरीके से प्रोटोकॉल को विकसित करना सीधा होना चाहिए।

    • Interoperable - संदेश प्रारूप को विभिन्न भाषाओं में लिखे गए नोड्स का समर्थन करना चाहिए।

लगातार भंडारण

निरंतर भंडारण एक डिजिटल भंडारण सुविधा है जो बिजली की आपूर्ति के नुकसान के साथ अपना डेटा नहीं खोता है। फ़ाइलें, फ़ोल्डर्स, डेटाबेस लगातार भंडारण के उदाहरण हैं।

लिखने योग्य इंटरफ़ेस

यह हाडोप में इंटरफ़ेस है जो क्रमबद्धता और डीरियलाइज़ेशन के लिए तरीके प्रदान करता है। निम्न तालिका विधियों का वर्णन करती है -

क्र.सं. तरीके और विवरण
1

void readFields(DataInput in)

इस पद्धति का उपयोग किसी दिए गए ऑब्जेक्ट के फ़ील्ड को डिसेरिएलाइज़ करने के लिए किया जाता है।

2

void write(DataOutput out)

इस पद्धति का उपयोग किसी दिए गए ऑब्जेक्ट के क्षेत्रों को क्रमबद्ध करने के लिए किया जाता है।

लिखने योग्य तुलनीय इंटरफ़ेस

का संयोजन है Writable तथा Comparableइंटरफेस। यह इंटरफ़ेस विरासत में मिला हैWritable Hadoop का इंटरफ़ेस और साथ ही Comparableजावा का इंटरफ़ेस। इसलिए यह डेटा सीरियलाइज़ेशन, डिसेरिएलाइज़ेशन और तुलना के लिए तरीके प्रदान करता है।

क्र.सं. तरीके और विवरण
1

int compareTo(class obj)

यह विधि दी गई वस्तु obj के साथ वर्तमान वस्तु की तुलना करती है।

इन वर्गों के अलावा, Hadoop कई रैपर वर्गों का समर्थन करता है जो WritableComparable इंटरफ़ेस को लागू करते हैं। प्रत्येक वर्ग एक जावा आदिम प्रकार लपेटता है। Hadoop क्रमांकन की श्रेणी पदानुक्रम नीचे दी गई है -

ये वर्ग Hadoop में विभिन्न प्रकार के डेटा को क्रमबद्ध करने के लिए उपयोगी हैं। उदाहरण के लिए, आइए हम इस पर विचार करेंIntWritableकक्षा। आइए देखते हैं कि कैसे इस वर्ग का उपयोग हैडोअप में डेटा को क्रमबद्ध और निष्क्रिय करने के लिए किया जाता है।

अंतरंग कक्षा

यह वर्ग लागू करता है Writable, Comparable, तथा WritableComparableइंटरफेस। यह इसमें एक पूर्णांक डेटा प्रकार को लपेटता है। यह वर्ग पूर्णांक प्रकार के डेटा को क्रमबद्ध और अ-अयोग्य बनाने के लिए उपयोग की जाने वाली विधियाँ प्रदान करता है।

कंस्ट्रक्टर्स

क्र.सं. सारांश
1 IntWritable()
2 IntWritable( int value)

तरीके

क्र.सं. सारांश
1

int get()

इस पद्धति का उपयोग करके आप वर्तमान वस्तु में मौजूद पूर्णांक मान प्राप्त कर सकते हैं।

2

void readFields(DataInput in)

इस पद्धति का उपयोग दिए गए डेटा को डिसेर्बलाइज करने के लिए किया जाता है DataInput वस्तु।

3

void set(int value)

इस विधि का उपयोग करंट के मान को सेट करने के लिए किया जाता है IntWritable वस्तु।

4

void write(DataOutput out)

इस पद्धति का उपयोग मौजूदा वस्तु में दिए गए डेटा को क्रमबद्ध करने के लिए किया जाता है DataOutput वस्तु।

Hadoop में डेटा को सीरियल करना

पूर्णांक प्रकार के डेटा को क्रमबद्ध करने की प्रक्रिया नीचे चर्चा की गई है।

  • इन्स्तांत करना IntWritable इसमें पूर्णांक मान लपेटकर वर्ग।

  • इन्स्तांत करना ByteArrayOutputStream कक्षा।

  • इन्स्तांत करना DataOutputStream कक्षा और वस्तु पास करें ByteArrayOutputStream इसके लिए कक्षा।

  • उपयोग करने योग्य आंतरिक वस्तु में पूर्णांक मान को क्रमबद्ध करें write()तरीका। इस विधि को DataOutputStream वर्ग की एक वस्तु की आवश्यकता है।

  • क्रमबद्ध डेटा को बाइट सरणी ऑब्जेक्ट में संग्रहीत किया जाएगा जो कि पैरामीटर के रूप में पारित किया गया है DataOutputStreamतात्कालिकता के समय वर्ग। ऑब्जेक्ट को बाइट सरणी में डेटा में कनवर्ट करें।

उदाहरण

निम्न उदाहरण दिखाता है कि कैसे Hadoop में पूर्णांक प्रकार के डेटा को क्रमबद्ध किया जाए -

import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

public class Serialization {
   public byte[] serialize() throws IOException{
		
      //Instantiating the IntWritable object
      IntWritable intwritable = new IntWritable(12);
   
      //Instantiating ByteArrayOutputStream object
      ByteArrayOutputStream byteoutputStream = new ByteArrayOutputStream();
   
      //Instantiating DataOutputStream object
      DataOutputStream dataOutputStream = new
      DataOutputStream(byteoutputStream);
   
      //Serializing the data
      intwritable.write(dataOutputStream);
   
      //storing the serialized object in bytearray
      byte[] byteArray = byteoutputStream.toByteArray();
   
      //Closing the OutputStream
      dataOutputStream.close();
      return(byteArray);
   }
	
   public static void main(String args[]) throws IOException{
      Serialization serialization= new Serialization();
      serialization.serialize();
      System.out.println();
   }
}

Hadoop में डेटा का वर्णन करना

पूर्णांक प्रकार के डेटा को डिसेर्बलाइज करने की प्रक्रिया नीचे चर्चा की गई है -

  • इन्स्तांत करना IntWritable इसमें पूर्णांक मान लपेटकर वर्ग।

  • इन्स्तांत करना ByteArrayOutputStream कक्षा।

  • इन्स्तांत करना DataOutputStream कक्षा और वस्तु पास करें ByteArrayOutputStream इसके लिए कक्षा।

  • के ऑब्जेक्ट में डेटा का वर्णन करें DataInputStream का उपयोग करते हुए readFields() अंतरंग कक्षा की विधि।

  • Deserialized डेटा को IntWritable class के ऑब्जेक्ट में स्टोर किया जाएगा। आप इस डेटा का उपयोग करके पुनः प्राप्त कर सकते हैंget() इस वर्ग की विधि।

उदाहरण

निम्न उदाहरण से पता चलता है कि Hadoop में पूर्णांक प्रकार के डेटा को कैसे निष्क्रिय किया जाए -

import java.io.ByteArrayInputStream;
import java.io.DataInputStream;

import org.apache.hadoop.io.IntWritable;

public class Deserialization {

   public void deserialize(byte[]byteArray) throws Exception{
   
      //Instantiating the IntWritable class
      IntWritable intwritable =new IntWritable();
      
      //Instantiating ByteArrayInputStream object
      ByteArrayInputStream InputStream = new ByteArrayInputStream(byteArray);
      
      //Instantiating DataInputStream object
      DataInputStream datainputstream=new DataInputStream(InputStream);
      
      //deserializing the data in DataInputStream
      intwritable.readFields(datainputstream);
      
      //printing the serialized data
      System.out.println((intwritable).get());
   }
   
   public static void main(String args[]) throws Exception {
      Deserialization dese = new Deserialization();
      dese.deserialize(new Serialization().serialize());
   }
}

जावा Serialization पर Hadoop का लाभ

Hadoop का Writable- आधारित क्रमांकन, लिखने योग्य ऑब्जेक्ट्स का पुन: उपयोग करके ऑब्जेक्ट-क्रिएशन ओवरहेड को कम करने में सक्षम है, जो Java के मूल क्रमांकन फ्रेमवर्क के साथ संभव नहीं है।

Hadoop Serialization के नुकसान

Hadoop डेटा को क्रमबद्ध करने के लिए, दो तरीके हैं -

  • आप उपयोग कर सकते हैं Writable Hadoop की मूल लाइब्रेरी द्वारा प्रदान की गई कक्षाएं।

  • आप भी उपयोग कर सकते हैं Sequence Files जो बाइनरी फॉर्मेट में डेटा को स्टोर करते हैं।

इन दोनों तंत्रों का मुख्य दोष यह है Writables तथा SequenceFiles केवल एक जावा एपीआई है और उन्हें किसी अन्य भाषा में नहीं लिखा या पढ़ा जा सकता है।

इसलिए दो तंत्रों के साथ Hadoop में बनाई गई किसी भी फाइल को किसी अन्य तीसरी भाषा द्वारा नहीं पढ़ा जा सकता है, जो Hadoop को एक सीमित बॉक्स के रूप में बनाता है। इस खामी को दूर करने के लिए, डौग कटिंग ने बनायाAvro, जो कि है language independent data structure