एवीआरओ - सीरियल
डेटा दो उद्देश्यों के लिए क्रमबद्ध है -
लगातार भंडारण के लिए
नेटवर्क पर डेटा ट्रांसपोर्ट करने के लिए
Serialization क्या है?
सीरियलाइज़ेशन डेटा संरचनाओं या ऑब्जेक्ट्स को बाइनरी या टेक्स्टुअल रूप में ट्रांसलेट करने की प्रक्रिया है जो डेटा को नेटवर्क पर ट्रांसपोर्ट करने के लिए या कुछ स्थायी स्टोरेज पर स्टोर करने के लिए है। एक बार जब डेटा को नेटवर्क पर ले जाया जाता है या लगातार भंडारण से पुनर्प्राप्त किया जाता है, तो इसे फिर से निष्क्रिय करने की आवश्यकता होती है। सीरियलाइजेशन को कहा जाता हैmarshalling और deserialization के रूप में कहा जाता है unmarshalling।
जावा में क्रमांकन
जावा एक तंत्र प्रदान करता है, जिसे कहा जाता है object serialization जहाँ किसी ऑब्जेक्ट को बाइट्स के अनुक्रम के रूप में दर्शाया जा सकता है जिसमें ऑब्जेक्ट के डेटा के साथ-साथ ऑब्जेक्ट के प्रकार और ऑब्जेक्ट में संग्रहीत डेटा के प्रकार के बारे में जानकारी शामिल होती है।
किसी सीरियल किए गए ऑब्जेक्ट को फ़ाइल में लिखे जाने के बाद, इसे फ़ाइल से पढ़ा जा सकता है और डीसर्विलाइज़ किया जा सकता है। अर्थात्, प्रकार की जानकारी और बाइट्स जो ऑब्जेक्ट का प्रतिनिधित्व करते हैं और इसके डेटा का उपयोग मेमोरी में ऑब्जेक्ट को फिर से बनाने के लिए किया जा सकता है।
ObjectInputStream तथा ObjectOutputStream जावा में क्रमशः किसी ऑब्जेक्ट को क्रमबद्ध करने और उसे अलग करने के लिए कक्षाओं का उपयोग किया जाता है।
Hadoop में सीरियल
आमतौर पर Hadoop जैसी वितरित प्रणालियों में, क्रमांकन की अवधारणा का उपयोग किया जाता है Interprocess Communication तथा Persistent Storage।
अंतःप्रक्रम संचार
एक नेटवर्क में जुड़े नोड्स के बीच इंटरप्रोसेस संचार स्थापित करने के लिए, आरपीसी तकनीक का उपयोग किया गया था।
आरपीसी ने नेटवर्क के माध्यम से दूरस्थ नोड पर भेजने से पहले संदेश को बाइनरी प्रारूप में बदलने के लिए आंतरिक क्रमांकन का उपयोग किया। दूसरे छोर पर रिमोट सिस्टम मूल संदेश में बाइनरी स्ट्रीम को deserializes।
आरपीसी क्रमांकन प्रारूप निम्नानुसार होना आवश्यक है -
Compact - नेटवर्क बैंडविड्थ का सबसे अच्छा उपयोग करने के लिए, जो डेटा सेंटर में सबसे दुर्लभ संसाधन है।
Fast - चूंकि वितरित सिस्टम में नोड्स के बीच संचार महत्वपूर्ण है, इसलिए कम ओवरहेड का उत्पादन करते हुए क्रमबद्धता और डिसेरिएलाइज़ेशन प्रक्रिया त्वरित होनी चाहिए।
Extensible - नई आवश्यकताओं को पूरा करने के लिए प्रोटोकॉल समय के साथ बदलते हैं, इसलिए क्लाइंट और सर्वर के लिए नियंत्रित तरीके से प्रोटोकॉल को विकसित करना सीधा होना चाहिए।
Interoperable - संदेश प्रारूप को विभिन्न भाषाओं में लिखे गए नोड्स का समर्थन करना चाहिए।
लगातार भंडारण
निरंतर भंडारण एक डिजिटल भंडारण सुविधा है जो बिजली की आपूर्ति के नुकसान के साथ अपना डेटा नहीं खोता है। फ़ाइलें, फ़ोल्डर्स, डेटाबेस लगातार भंडारण के उदाहरण हैं।
लिखने योग्य इंटरफ़ेस
यह हाडोप में इंटरफ़ेस है जो क्रमबद्धता और डीरियलाइज़ेशन के लिए तरीके प्रदान करता है। निम्न तालिका विधियों का वर्णन करती है -
क्र.सं. | तरीके और विवरण |
---|---|
1 | void readFields(DataInput in) इस पद्धति का उपयोग किसी दिए गए ऑब्जेक्ट के फ़ील्ड को डिसेरिएलाइज़ करने के लिए किया जाता है। |
2 | void write(DataOutput out) इस पद्धति का उपयोग किसी दिए गए ऑब्जेक्ट के क्षेत्रों को क्रमबद्ध करने के लिए किया जाता है। |
लिखने योग्य तुलनीय इंटरफ़ेस
का संयोजन है Writable तथा Comparableइंटरफेस। यह इंटरफ़ेस विरासत में मिला हैWritable Hadoop का इंटरफ़ेस और साथ ही Comparableजावा का इंटरफ़ेस। इसलिए यह डेटा सीरियलाइज़ेशन, डिसेरिएलाइज़ेशन और तुलना के लिए तरीके प्रदान करता है।
क्र.सं. | तरीके और विवरण |
---|---|
1 | int compareTo(class obj) यह विधि दी गई वस्तु obj के साथ वर्तमान वस्तु की तुलना करती है। |
इन वर्गों के अलावा, Hadoop कई रैपर वर्गों का समर्थन करता है जो WritableComparable इंटरफ़ेस को लागू करते हैं। प्रत्येक वर्ग एक जावा आदिम प्रकार लपेटता है। Hadoop क्रमांकन की श्रेणी पदानुक्रम नीचे दी गई है -
ये वर्ग Hadoop में विभिन्न प्रकार के डेटा को क्रमबद्ध करने के लिए उपयोगी हैं। उदाहरण के लिए, आइए हम इस पर विचार करेंIntWritableकक्षा। आइए देखते हैं कि कैसे इस वर्ग का उपयोग हैडोअप में डेटा को क्रमबद्ध और निष्क्रिय करने के लिए किया जाता है।
अंतरंग कक्षा
यह वर्ग लागू करता है Writable, Comparable, तथा WritableComparableइंटरफेस। यह इसमें एक पूर्णांक डेटा प्रकार को लपेटता है। यह वर्ग पूर्णांक प्रकार के डेटा को क्रमबद्ध और अ-अयोग्य बनाने के लिए उपयोग की जाने वाली विधियाँ प्रदान करता है।
कंस्ट्रक्टर्स
क्र.सं. | सारांश |
---|---|
1 | IntWritable() |
2 | IntWritable( int value) |
तरीके
क्र.सं. | सारांश |
---|---|
1 | int get() इस पद्धति का उपयोग करके आप वर्तमान वस्तु में मौजूद पूर्णांक मान प्राप्त कर सकते हैं। |
2 | void readFields(DataInput in) इस पद्धति का उपयोग दिए गए डेटा को डिसेर्बलाइज करने के लिए किया जाता है DataInput वस्तु। |
3 | void set(int value) इस विधि का उपयोग करंट के मान को सेट करने के लिए किया जाता है IntWritable वस्तु। |
4 | void write(DataOutput out) इस पद्धति का उपयोग मौजूदा वस्तु में दिए गए डेटा को क्रमबद्ध करने के लिए किया जाता है DataOutput वस्तु। |
Hadoop में डेटा को सीरियल करना
पूर्णांक प्रकार के डेटा को क्रमबद्ध करने की प्रक्रिया नीचे चर्चा की गई है।
इन्स्तांत करना IntWritable इसमें पूर्णांक मान लपेटकर वर्ग।
इन्स्तांत करना ByteArrayOutputStream कक्षा।
इन्स्तांत करना DataOutputStream कक्षा और वस्तु पास करें ByteArrayOutputStream इसके लिए कक्षा।
उपयोग करने योग्य आंतरिक वस्तु में पूर्णांक मान को क्रमबद्ध करें write()तरीका। इस विधि को DataOutputStream वर्ग की एक वस्तु की आवश्यकता है।
क्रमबद्ध डेटा को बाइट सरणी ऑब्जेक्ट में संग्रहीत किया जाएगा जो कि पैरामीटर के रूप में पारित किया गया है DataOutputStreamतात्कालिकता के समय वर्ग। ऑब्जेक्ट को बाइट सरणी में डेटा में कनवर्ट करें।
उदाहरण
निम्न उदाहरण दिखाता है कि कैसे Hadoop में पूर्णांक प्रकार के डेटा को क्रमबद्ध किया जाए -
import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
public class Serialization {
public byte[] serialize() throws IOException{
//Instantiating the IntWritable object
IntWritable intwritable = new IntWritable(12);
//Instantiating ByteArrayOutputStream object
ByteArrayOutputStream byteoutputStream = new ByteArrayOutputStream();
//Instantiating DataOutputStream object
DataOutputStream dataOutputStream = new
DataOutputStream(byteoutputStream);
//Serializing the data
intwritable.write(dataOutputStream);
//storing the serialized object in bytearray
byte[] byteArray = byteoutputStream.toByteArray();
//Closing the OutputStream
dataOutputStream.close();
return(byteArray);
}
public static void main(String args[]) throws IOException{
Serialization serialization= new Serialization();
serialization.serialize();
System.out.println();
}
}
Hadoop में डेटा का वर्णन करना
पूर्णांक प्रकार के डेटा को डिसेर्बलाइज करने की प्रक्रिया नीचे चर्चा की गई है -
इन्स्तांत करना IntWritable इसमें पूर्णांक मान लपेटकर वर्ग।
इन्स्तांत करना ByteArrayOutputStream कक्षा।
इन्स्तांत करना DataOutputStream कक्षा और वस्तु पास करें ByteArrayOutputStream इसके लिए कक्षा।
के ऑब्जेक्ट में डेटा का वर्णन करें DataInputStream का उपयोग करते हुए readFields() अंतरंग कक्षा की विधि।
Deserialized डेटा को IntWritable class के ऑब्जेक्ट में स्टोर किया जाएगा। आप इस डेटा का उपयोग करके पुनः प्राप्त कर सकते हैंget() इस वर्ग की विधि।
उदाहरण
निम्न उदाहरण से पता चलता है कि Hadoop में पूर्णांक प्रकार के डेटा को कैसे निष्क्रिय किया जाए -
import java.io.ByteArrayInputStream;
import java.io.DataInputStream;
import org.apache.hadoop.io.IntWritable;
public class Deserialization {
public void deserialize(byte[]byteArray) throws Exception{
//Instantiating the IntWritable class
IntWritable intwritable =new IntWritable();
//Instantiating ByteArrayInputStream object
ByteArrayInputStream InputStream = new ByteArrayInputStream(byteArray);
//Instantiating DataInputStream object
DataInputStream datainputstream=new DataInputStream(InputStream);
//deserializing the data in DataInputStream
intwritable.readFields(datainputstream);
//printing the serialized data
System.out.println((intwritable).get());
}
public static void main(String args[]) throws Exception {
Deserialization dese = new Deserialization();
dese.deserialize(new Serialization().serialize());
}
}
जावा Serialization पर Hadoop का लाभ
Hadoop का Writable- आधारित क्रमांकन, लिखने योग्य ऑब्जेक्ट्स का पुन: उपयोग करके ऑब्जेक्ट-क्रिएशन ओवरहेड को कम करने में सक्षम है, जो Java के मूल क्रमांकन फ्रेमवर्क के साथ संभव नहीं है।
Hadoop Serialization के नुकसान
Hadoop डेटा को क्रमबद्ध करने के लिए, दो तरीके हैं -
आप उपयोग कर सकते हैं Writable Hadoop की मूल लाइब्रेरी द्वारा प्रदान की गई कक्षाएं।
आप भी उपयोग कर सकते हैं Sequence Files जो बाइनरी फॉर्मेट में डेटा को स्टोर करते हैं।
इन दोनों तंत्रों का मुख्य दोष यह है Writables तथा SequenceFiles केवल एक जावा एपीआई है और उन्हें किसी अन्य भाषा में नहीं लिखा या पढ़ा जा सकता है।
इसलिए दो तंत्रों के साथ Hadoop में बनाई गई किसी भी फाइल को किसी अन्य तीसरी भाषा द्वारा नहीं पढ़ा जा सकता है, जो Hadoop को एक सीमित बॉक्स के रूप में बनाता है। इस खामी को दूर करने के लिए, डौग कटिंग ने बनायाAvro, जो कि है language independent data structure।