HCatalog - पाठक लेखक
HCatalog में MapReduce का उपयोग किए बिना समानांतर इनपुट और आउटपुट के लिए डेटा ट्रांसफर एपीआई शामिल है। यह एपीआई Hadoop क्लस्टर से डेटा पढ़ने और उसमें डेटा लिखने के लिए तालिकाओं और पंक्तियों के एक बुनियादी भंडारण अमूर्त का उपयोग करता है।
डेटा ट्रांसफर एपीआई में मुख्य रूप से तीन वर्ग होते हैं; वे हैं -
HCatReader - एक Hadoop क्लस्टर से डेटा पढ़ता है।
HCatWriter - एक Hadoop क्लस्टर में डेटा लिखता है।
DataTransferFactory - पाठक और लेखक उदाहरण उत्पन्न करता है।
यह API मास्टर-स्लेव नोड सेटअप के लिए उपयुक्त है। आइए हम और अधिक चर्चा करेंHCatReader तथा HCatWriter।
HCatReader
HCatReader, HCatalog में एक अमूर्त वर्ग आंतरिक है और अंतर्निहित सिस्टम की जटिलताओं को दूर करता है जहाँ से रिकॉर्ड को पुनः प्राप्त किया जाना है।
अनु क्रमांक। | विधि का नाम और विवरण |
---|---|
1 | Public abstract ReaderContext prepareRead() throws HCatException यह ReaderContext प्राप्त करने के लिए मास्टर नोड पर बुलाया जाना चाहिए जिसे तब क्रमबद्ध किया जाना चाहिए और दास नोड्स को भेजा जाना चाहिए। |
2 | Public abstract Iterator <HCatRecorder> read() throws HCaException इसे HCATRecords को पढ़ने के लिए दास नोड्स पर बुलाया जाना चाहिए। |
3 | Public Configuration getConf() यह कॉन्फ़िगरेशन क्लास ऑब्जेक्ट वापस कर देगा। |
एचसीएफ़एसआरएडर श्रेणी का उपयोग एचडीएफएस के डेटा को पढ़ने के लिए किया जाता है। पढ़ना एक दो-चरण प्रक्रिया है जिसमें पहला चरण बाहरी सिस्टम के मास्टर नोड पर होता है। दूसरा चरण कई दास नोड्स पर समानांतर में किया जाता है।
पढ़े जाते हैं a ReadEntity। इससे पहले कि आप पढ़ना शुरू करें, आपको एक ReadEntity को परिभाषित करना होगा जिसमें से पढ़ना है। इसके माध्यम से किया जा सकता हैReadEntity.Builder। आप एक डेटाबेस का नाम, तालिका का नाम, विभाजन और फ़िल्टर स्ट्रिंग निर्दिष्ट कर सकते हैं। उदाहरण के लिए -
ReadEntity.Builder builder = new ReadEntity.Builder();
ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10.
उपरोक्त कोड स्निपेट ReadEntity ऑब्जेक्ट ("एंटिटी") को परिभाषित करता है, जिसमें एक तालिका नाम है mytbl नाम के एक डेटाबेस में mydb, जिसका उपयोग इस तालिका की सभी पंक्तियों को पढ़ने के लिए किया जा सकता है। ध्यान दें कि इस ऑपरेशन के शुरू होने से पहले यह तालिका HCatalog में मौजूद होनी चाहिए।
ReadEntity को परिभाषित करने के बाद, आप ReadEntity और क्लस्टर कॉन्फ़िगरेशन का उपयोग करके HCatReader का एक उदाहरण प्राप्त करते हैं -
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
अगला कदम पाठक से एक रीडर-पाठ प्राप्त करना है -
ReaderContext cntxt = reader.prepareRead();
HCatWriter
यह अमूर्त HCatalog आंतरिक है। यह बाहरी सिस्टम से HCatalog लिखने की सुविधा है। इसे सीधे करने की कोशिश न करें। इसके बजाय, DataTransferFactory का उपयोग करें।
अनु क्रमांक। | विधि का नाम और विवरण |
---|---|
1 | Public abstract WriterContext prepareRead() throws HCatException बाहरी प्रणाली को एक बार मास्टर नोड से इस विधि को लागू करना चाहिए। यह एक रिटर्नWriterContext। इसे क्रमांकित किया जाना चाहिए और निर्माण के लिए दास नोड्स को भेजा जाना चाहिएHCatWriter वहाँ। |
2 | Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException इस विधि का उपयोग लिखने के लिए दास नोड्स में किया जाना चाहिए। RecordItr एक पुनरावृत्त वस्तु है जिसमें HCatalog में लिखे जाने वाले अभिलेखों का संग्रह होता है। |
3 | Public abstract void abort(WriterContext cntxt) throws HCatException इस विधि को मास्टर नोड पर बुलाया जाना चाहिए। इस पद्धति का प्राथमिक उद्देश्य विफलताओं के मामले में सफाई करना है। |
4 | public abstract void commit(WriterContext cntxt) throws HCatException इस विधि को मास्टर नोड पर बुलाया जाना चाहिए। इस विधि का उद्देश्य मेटाडेटा कमिट करना है। |
पढ़ने के समान, लेखन भी एक दो-चरण प्रक्रिया है जिसमें पहला कदम मास्टर नोड पर होता है। बाद में, दूसरा चरण दास नोड्स पर समानांतर में होता है।
राइट ए पर किए जाते हैं WriteEntity जिसका निर्माण पठन के समान फैशन में किया जा सकता है -
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();
उपरोक्त कोड एक WriteEntity ऑब्जेक्ट बनाता है जिसका entity
उपयोग नाम की तालिका में लिखने के लिए किया जा सकता हैmytbl डेटाबेस में mydb।
एक WriteEntity बनाने के बाद, अगला कदम एक WriterContext प्राप्त करना है -
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
उपरोक्त सभी चरण मास्टर नोड पर होते हैं। मास्टर नोड तब WriterContext ऑब्जेक्ट को क्रमबद्ध करता है और इसे सभी दासों को उपलब्ध कराता है।
दास नोड्स पर, आपको निम्नानुसार WriterContext का उपयोग करके एक HCatWriter प्राप्त करना होगा -
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
फिर writerwrite
विधि के तर्क के रूप में एक पुनरावृत्ति लेता है -
writer.write(hCatRecordItr);
writer फिर कॉल करता है getNext() लूप में इस इटरेटर पर और इटरेटर से जुड़े सभी रिकॉर्ड्स को लिखता है।
TestReaderWriter.javaफ़ाइल का उपयोग एचसीएट्रेडर और एचसीएट्रविटर कक्षाओं का परीक्षण करने के लिए किया जाता है। निम्न प्रोग्राम दर्शाता है कि स्रोत फ़ाइल से डेटा पढ़ने के लिए HCatReader और HCatWriter API का उपयोग कैसे करें और बाद में इसे एक गंतव्य फ़ाइल पर लिखें।
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.metastore.api.MetaException;
import org.apache.hadoop.hive.ql.CommandNeedRetryException;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hive.HCatalog.common.HCatException;
import org.apache.hive.HCatalog.data.transfer.DataTransferFactory;
import org.apache.hive.HCatalog.data.transfer.HCatReader;
import org.apache.hive.HCatalog.data.transfer.HCatWriter;
import org.apache.hive.HCatalog.data.transfer.ReadEntity;
import org.apache.hive.HCatalog.data.transfer.ReaderContext;
import org.apache.hive.HCatalog.data.transfer.WriteEntity;
import org.apache.hive.HCatalog.data.transfer.WriterContext;
import org.apache.hive.HCatalog.mapreduce.HCatBaseTest;
import org.junit.Assert;
import org.junit.Test;
public class TestReaderWriter extends HCatBaseTest {
@Test
public void test() throws MetaException, CommandNeedRetryException,
IOException, ClassNotFoundException {
driver.run("drop table mytbl");
driver.run("create table mytbl (a string, b int)");
Iterator<Entry<String, String>> itr = hiveConf.iterator();
Map<String, String> map = new HashMap<String, String>();
while (itr.hasNext()) {
Entry<String, String> kv = itr.next();
map.put(kv.getKey(), kv.getValue());
}
WriterContext cntxt = runsInMaster(map);
File writeCntxtFile = File.createTempFile("hcat-write", "temp");
writeCntxtFile.deleteOnExit();
// Serialize context.
ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile));
oos.writeObject(cntxt);
oos.flush();
oos.close();
// Now, deserialize it.
ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile));
cntxt = (WriterContext) ois.readObject();
ois.close();
runsInSlave(cntxt);
commit(map, true, cntxt);
ReaderContext readCntxt = runsInMaster(map, false);
File readCntxtFile = File.createTempFile("hcat-read", "temp");
readCntxtFile.deleteOnExit();
oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile));
oos.writeObject(readCntxt);
oos.flush();
oos.close();
ois = new ObjectInputStream(new FileInputStream(readCntxtFile));
readCntxt = (ReaderContext) ois.readObject();
ois.close();
for (int i = 0; i < readCntxt.numSplits(); i++) {
runsInSlave(readCntxt, i);
}
}
private WriterContext runsInMaster(Map<String, String> config) throws HCatException {
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withTable("mytbl").build();
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
return info;
}
private ReaderContext runsInMaster(Map<String, String> config,
boolean bogus) throws HCatException {
ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build();
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
ReaderContext cntxt = reader.prepareRead();
return cntxt;
}
private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException {
HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum);
Iterator<HCatRecord> itr = reader.read();
int i = 1;
while (itr.hasNext()) {
HCatRecord read = itr.next();
HCatRecord written = getRecord(i++);
// Argh, HCatRecord doesnt implement equals()
Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0),
written.get(0).equals(read.get(0)));
Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1),
written.get(1).equals(read.get(1)));
Assert.assertEquals(2, read.size());
}
//Assert.assertFalse(itr.hasNext());
}
private void runsInSlave(WriterContext context) throws HCatException {
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
writer.write(new HCatRecordItr());
}
private void commit(Map<String, String> config, boolean status,
WriterContext context) throws IOException {
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withTable("mytbl").build();
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
if (status) {
writer.commit(context);
} else {
writer.abort(context);
}
}
private static HCatRecord getRecord(int i) {
List<Object> list = new ArrayList<Object>(2);
list.add("Row #: " + i);
list.add(i);
return new DefaultHCatRecord(list);
}
private static class HCatRecordItr implements Iterator<HCatRecord> {
int i = 0;
@Override
public boolean hasNext() {
return i++ < 100 ? true : false;
}
@Override
public HCatRecord next() {
return getRecord(i);
}
@Override
public void remove() {
throw new RuntimeException();
}
}
}
उपरोक्त कार्यक्रम HDFS से रिकॉर्ड के रूप में डेटा को पढ़ता है और रिकॉर्ड डेटा को लिखता है mytable