HCatalog - इनपुट आउटपुट प्रारूप
HCatInputFormat तथा HCatOutputFormatHDFS से डेटा पढ़ने के लिए इंटरफेस का उपयोग किया जाता है और प्रसंस्करण के बाद, MapReduce जॉब का उपयोग करके परिणामी डेटा को HDFS में लिखें। चलिए इनपुट और आउटपुट प्रारूप इंटरफेस को विस्तृत करते हैं।
HCatInputFormat
HCatInputFormatHCatalog प्रबंधित तालिकाओं से डेटा पढ़ने के लिए MapReduce नौकरियों के साथ प्रयोग किया जाता है। HCatInputFormat डेटा पढ़ने के लिए एक Hadoop 0.20 MapReduce एपीआई को उजागर करता है जैसे कि यह एक तालिका में प्रकाशित किया गया था।
अनु क्रमांक। | विधि का नाम और विवरण |
---|---|
1 | public static HCatInputFormat setInput(Job job, String dbName, String tableName)throws IOException नौकरी के लिए उपयोग करने के लिए इनपुट सेट करें। यह दिए गए इनपुट विनिर्देश के साथ मेटास्टोर पर सवाल उठाता है और MapReduce कार्यों के लिए कार्य विन्यास में मिलान विभाजन को क्रमबद्ध करता है। |
2 | public static HCatInputFormat setInput(Configuration conf, String dbName, String tableName) throws IOException नौकरी के लिए उपयोग करने के लिए इनपुट सेट करें। यह दिए गए इनपुट विनिर्देश के साथ मेटास्टोर पर सवाल उठाता है और MapReduce कार्यों के लिए कार्य विन्यास में मिलान विभाजन को क्रमबद्ध करता है। |
3 | public HCatInputFormat setFilter(String filter)throws IOException इनपुट तालिका पर एक फ़िल्टर सेट करें। |
4 | public HCatInputFormat setProperties(Properties properties) throws IOException इनपुट प्रारूप के लिए गुण सेट करें। |
HCatInputFormat एपीआई में निम्नलिखित विधियाँ शामिल हैं -
- setInput
- setOutputSchema
- getTableSchema
काम में लाना HCatInputFormat डेटा पढ़ने के लिए, पहले एक पल InputJobInfo पढ़ी जा रही तालिका से आवश्यक जानकारी और फिर फोन करें setInput उसके साथ InputJobInfo।
आप उपयोग कर सकते हैं setOutputSchema शामिल करने की विधि a projection schema, उत्पादन क्षेत्रों को निर्दिष्ट करने के लिए। यदि एक स्कीमा निर्दिष्ट नहीं है, तो तालिका के सभी कॉलम वापस आ जाएंगे। आप निर्दिष्ट इनपुट तालिका के लिए तालिका स्कीमा निर्धारित करने के लिए getTableSchema विधि का उपयोग कर सकते हैं।
HCatOutputFormat
HCatOutputFormat का उपयोग MapReduce नौकरियों के साथ HCatalog प्रबंधित तालिकाओं में डेटा लिखने के लिए किया जाता है। HCatOutputFormat एक तालिका में डेटा लिखने के लिए एक Hadoop 0.20 MapReduce API को उजागर करता है। जब कोई MapReduce कार्य आउटपुट लिखने के लिए HCatOutputFormat का उपयोग करता है, तो तालिका के लिए कॉन्फ़िगर किया गया डिफ़ॉल्ट OutputFormat उपयोग किया जाता है और नया विभाजन कार्य पूरा होने के बाद तालिका में प्रकाशित किया जाता है।
अनु क्रमांक। | विधि का नाम और विवरण |
---|---|
1 | public static void setOutput (Configuration conf, Credentials credentials, OutputJobInfo outputJobInfo) throws IOException नौकरी के लिए लिखने के लिए आउटपुट के बारे में जानकारी सेट करें। यह तालिका के लिए उपयोग करने के लिए StorageHandler को खोजने के लिए मेटाडेटा सर्वर से पूछताछ करता है। यदि विभाजन पहले से ही प्रकाशित है, तो यह एक त्रुटि फेंकता है। |
2 | public static void setSchema (Configuration conf, HCatSchema schema) throws IOException विभाजन के लिए लिखे जा रहे डेटा के लिए स्कीमा सेट करें। तालिका स्कीमा का उपयोग विभाजन के लिए डिफ़ॉल्ट रूप से किया जाता है यदि यह नहीं कहा जाता है। |
3 | public RecordWriter <WritableComparable<?>, HCatRecord > getRecordWriter (TaskAttemptContext context)throws IOException, InterruptedException नौकरी के लिए रिकॉर्ड राइटर लें। यह StorageHandler के डिफ़ॉल्ट OutputFormat का उपयोग रिकॉर्ड लेखक को पाने के लिए करता है। |
4 | public OutputCommitter getOutputCommitter (TaskAttemptContext context) throws IOException, InterruptedException इस आउटपुट प्रारूप के लिए आउटपुट कमिटर प्राप्त करें। यह सुनिश्चित करता है कि आउटपुट सही तरीके से प्रतिबद्ध है। |
HCatOutputFormat एपीआई में निम्नलिखित विधियाँ शामिल हैं -
- setOutput
- setSchema
- getTableSchema
HCatOutputFormat पर पहली कॉल होनी चाहिए setOutput; कोई अन्य कॉल अपवाद को यह कहते हुए फेंक देगा कि आउटपुट प्रारूप आरंभीकृत नहीं है।
डेटा जो लिखा जा रहा है उसके लिए स्कीमा द्वारा निर्दिष्ट किया गया है setSchemaतरीका। आपको इस विधि को कॉल करना होगा, जो आपके द्वारा लिखे जा रहे डेटा का स्कीमा प्रदान करेगा। यदि आपके डेटा में टेबल स्कीमा के समान स्कीमा है, तो आप उपयोग कर सकते हैंHCatOutputFormat.getTableSchema() तालिका स्कीमा प्राप्त करने के लिए और उसके बाद पास करें setSchema()।
उदाहरण
निम्न MapReduce प्रोग्राम एक तालिका से डेटा पढ़ता है जिसे वह दूसरे कॉलम ("कॉलम 1") में पूर्णांक मानता है, और यह गिनता है कि प्रत्येक भिन्न मान के कितने उदाहरण मिलते हैं। यही है, यह "के बराबर हैselect col1, count(*) from $table group by col1;"।
उदाहरण के लिए, यदि दूसरे कॉलम में मान {1, 1, 1, 3, 3, 5} हैं, तो प्रोग्राम निम्न मानों और काउंट्स के आउटपुट का उत्पादन करेगा -
1, 3
3, 2
5, 1
आइये अब एक नजर डालते हैं प्रोग्राम कोड पर -
import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.HCatalog.common.HCatConstants;
import org.apache.HCatalog.data.DefaultHCatRecord;
import org.apache.HCatalog.data.HCatRecord;
import org.apache.HCatalog.data.schema.HCatSchema;
import org.apache.HCatalog.mapreduce.HCatInputFormat;
import org.apache.HCatalog.mapreduce.HCatOutputFormat;
import org.apache.HCatalog.mapreduce.InputJobInfo;
import org.apache.HCatalog.mapreduce.OutputJobInfo;
public class GroupByAge extends Configured implements Tool {
public static class Map extends Mapper<WritableComparable,
HCatRecord, IntWritable, IntWritable> {
int age;
@Override
protected void map(
WritableComparable key, HCatRecord value,
org.apache.hadoop.mapreduce.Mapper<WritableComparable,
HCatRecord, IntWritable, IntWritable>.Context context
)throws IOException, InterruptedException {
age = (Integer) value.get(1);
context.write(new IntWritable(age), new IntWritable(1));
}
}
public static class Reduce extends Reducer<IntWritable, IntWritable,
WritableComparable, HCatRecord> {
@Override
protected void reduce(
IntWritable key, java.lang.Iterable<IntWritable> values,
org.apache.hadoop.mapreduce.Reducer<IntWritable, IntWritable,
WritableComparable, HCatRecord>.Context context
)throws IOException ,InterruptedException {
int sum = 0;
Iterator<IntWritable> iter = values.iterator();
while (iter.hasNext()) {
sum++;
iter.next();
}
HCatRecord record = new DefaultHCatRecord(2);
record.set(0, key.get());
record.set(1, sum);
context.write(null, record);
}
}
public int run(String[] args) throws Exception {
Configuration conf = getConf();
args = new GenericOptionsParser(conf, args).getRemainingArgs();
String serverUri = args[0];
String inputTableName = args[1];
String outputTableName = args[2];
String dbName = null;
String principalID = System
.getProperty(HCatConstants.HCAT_METASTORE_PRINCIPAL);
if (principalID != null)
conf.set(HCatConstants.HCAT_METASTORE_PRINCIPAL, principalID);
Job job = new Job(conf, "GroupByAge");
HCatInputFormat.setInput(job, InputJobInfo.create(dbName, inputTableName, null));
// initialize HCatOutputFormat
job.setInputFormatClass(HCatInputFormat.class);
job.setJarByClass(GroupByAge.class);
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);
job.setMapOutputKeyClass(IntWritable.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(WritableComparable.class);
job.setOutputValueClass(DefaultHCatRecord.class);
HCatOutputFormat.setOutput(job, OutputJobInfo.create(dbName, outputTableName, null));
HCatSchema s = HCatOutputFormat.getTableSchema(job);
System.err.println("INFO: output schema explicitly set for writing:" + s);
HCatOutputFormat.setSchema(job, s);
job.setOutputFormatClass(HCatOutputFormat.class);
return (job.waitForCompletion(true) ? 0 : 1);
}
public static void main(String[] args) throws Exception {
int exitCode = ToolRunner.run(new GroupByAge(), args);
System.exit(exitCode);
}
}
उपरोक्त कार्यक्रम को संकलित करने से पहले, आपको कुछ डाउनलोड करना होगा jars और उन लोगों को जोड़ें classpathइस आवेदन के लिए। आपको सभी हाइव जार और HCatalog जार (HCatalog-core-0.5.0.jar, hive-metastore-0.10.0.jar, libthrift-0.7.0.jar, hive-exec-0.10.0jar, डाउनलोड करने की आवश्यकता है libfb303-0.7.0.jar, jdo2-api-2.3-ec.jar, slf4j-api-1.6.1.jar)।
उन की प्रतिलिपि बनाने के लिए निम्न आदेशों का उपयोग करें jar से फ़ाइलें local सेवा HDFS और उन लोगों को जोड़ें classpath।
bin/hadoop fs -copyFromLocal $HCAT_HOME/share/HCatalog/HCatalog-core-0.5.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/hive-metastore-0.10.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/libthrift-0.7.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/hive-exec-0.10.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/libfb303-0.7.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/jdo2-api-2.3-ec.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/slf4j-api-1.6.1.jar /tmp
export LIB_JARS=hdfs:///tmp/HCatalog-core-0.5.0.jar,
hdfs:///tmp/hive-metastore-0.10.0.jar,
hdfs:///tmp/libthrift-0.7.0.jar,
hdfs:///tmp/hive-exec-0.10.0.jar,
hdfs:///tmp/libfb303-0.7.0.jar,
hdfs:///tmp/jdo2-api-2.3-ec.jar,
hdfs:///tmp/slf4j-api-1.6.1.jar
दिए गए प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop jar GroupByAge tmp/hive
अब, आउटपुट के लिए अपनी आउटपुट डायरेक्टरी (hdfs: user / tmp / hive) की जाँच करें (part_0000, part_0001)।