MapReduce - एपीआई

इस अध्याय में, हम उन कक्षाओं और उनके तरीकों पर एक नज़र डालेंगे जो मैपरेडेस प्रोग्रामिंग के संचालन में शामिल हैं। हम मुख्य रूप से अपना ध्यान निम्नलिखित पर रखेंगे -

  • JobContext इंटरफ़ेस
  • जॉब क्लास
  • मैपर क्लास
  • Reducer वर्ग

JobContext इंटरफ़ेस

JobContext इंटरफ़ेस सभी वर्गों के लिए सुपर इंटरफ़ेस है, जो MapReduce में विभिन्न नौकरियों को परिभाषित करता है। यह आपको नौकरी के बारे में केवल पढ़ने का दृष्टिकोण देता है जो कि काम करते समय प्रदान किया जाता है।

JobContext इंटरफ़ेस के उप-इंटरफ़ेस निम्नलिखित हैं।

क्र.सं. उपप्रकार का विवरण
1। MapContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

उस संदर्भ को परिभाषित करता है जो मैपर को दिया जाता है।

2। ReduceContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

संदर्भ को परिभाषित करता है जो Reducer को दिया जाता है।

जॉब क्लास मुख्य वर्ग है जो जॉब कॉन्टेक्स्ट इंटरफेस को लागू करता है।

जॉब क्लास

MapReduce API में जॉब क्लास सबसे महत्वपूर्ण क्लास है। यह उपयोगकर्ता को नौकरी को कॉन्फ़िगर करने, जमा करने, उसके निष्पादन को नियंत्रित करने और राज्य को क्वेरी करने की अनुमति देता है। सेट विधियां केवल तब तक काम करती हैं जब तक कि नौकरी प्रस्तुत नहीं की जाती है, बाद में वे एक IllegalStateException फेंक देंगे।

आम तौर पर, उपयोगकर्ता एप्लिकेशन बनाता है, नौकरी के विभिन्न पहलुओं का वर्णन करता है, और फिर नौकरी को प्रस्तुत करता है और इसकी प्रगति की निगरानी करता है।

यहाँ एक उदाहरण है कि नौकरी कैसे जमा करें -

// Create a new Job
Job job = new Job(new Configuration());
job.setJarByClass(MyJob.class);

// Specify various job-specific parameters
job.setJobName("myjob");
job.setInputPath(new Path("in"));
job.setOutputPath(new Path("out"));

job.setMapperClass(MyJob.MyMapper.class);
job.setReducerClass(MyJob.MyReducer.class);

// Submit the job, then poll for progress until the job is complete
job.waitForCompletion(true);

कंस्ट्रक्टर्स

जॉब क्लास के निर्माता सारांश निम्नलिखित हैं।

S.No कंस्ट्रक्टर सारांश
1 Job()
2 Job(कॉन्फ़िगरेशन कॉन्फिग)
3 Job(कॉन्फ़िगरेशन मान, स्ट्रिंग नाम

तरीकों

जॉब क्लास के कुछ महत्वपूर्ण तरीके इस प्रकार हैं -

S.No विधि का वर्णन
1 getJobName()

उपयोगकर्ता-निर्दिष्ट नौकरी का नाम।

2 getJobState()

नौकरी की वर्तमान स्थिति लौटाता है।

3 isComplete()

नौकरी खत्म हो गई है या नहीं, इसकी जांच करें।

4 setInputFormatClass()

नौकरी के लिए InputFormat सेट करता है।

5 setJobName(String name)

उपयोगकर्ता-निर्दिष्ट कार्य नाम सेट करता है।

6 setOutputFormatClass()

नौकरी के लिए आउटपुट स्वरूप सेट करता है।

7 setMapperClass(Class)

नौकरी के लिए मैपर सेट करता है।

8 setReducerClass(Class)

कार्य के लिए Reducer सेट करता है।

9 setPartitionerClass(Class)

नौकरी के लिए पार्टीशनर सेट करता है।

10 setCombinerClass(Class)

जॉब के लिए कंबाइनर सेट करता है।

मैपर क्लास

मैपर वर्ग मानचित्र की नौकरी को परिभाषित करता है। मध्यवर्ती कुंजी-मूल्य जोड़े के एक सेट में मैप्स इनपुट कुंजी-मूल्य जोड़े। मानचित्र व्यक्तिगत कार्य हैं जो इनपुट रिकॉर्ड को मध्यवर्ती रिकॉर्ड में बदलते हैं। रूपांतरित मध्यवर्ती रिकॉर्ड को इनपुट रिकॉर्ड के समान प्रकार की आवश्यकता नहीं है। एक दी गई इनपुट जोड़ी शून्य या कई आउटपुट जोड़े के लिए मैप कर सकती है।

तरीका

mapमैपर वर्ग की सबसे प्रमुख विधि है। सिंटैक्स को नीचे परिभाषित किया गया है -

map(KEYIN key, VALUEIN value, org.apache.hadoop.mapreduce.Mapper.Context context)

इस विधि को इनपुट स्प्लिट में प्रत्येक की-वैल्यू पेयर के लिए एक बार कहा जाता है।

Reducer वर्ग

Reducer वर्ग MapReduce में Reduce कार्य को परिभाषित करता है। यह मध्यवर्ती मानों के एक सेट को कम करता है जो मानों के एक छोटे समूह की कुंजी साझा करता है। Reducer कार्यान्वयन JobContext.getConfiguration () विधि के माध्यम से किसी कार्य के लिए कॉन्फ़िगरेशन तक पहुँच सकता है। एक Reducer के तीन प्राथमिक चरण होते हैं - शफल, सॉर्ट और कम।

  • Shuffle - Reducer नेटवर्क पर HTTP का उपयोग करके प्रत्येक मैपर से सॉर्ट किए गए आउटपुट को कॉपी करता है।

  • Sort- रूपरेखा मर्ज-सॉर्ट करती है Reducer निविष्टियों को कुंजी के द्वारा (क्योंकि अलग-अलग मैपर में समान कुंजी आउटपुट हो सकती है)। फेरबदल और सॉर्ट चरण एक साथ होते हैं, अर्थात, जबकि आउटपुट प्राप्त किए जा रहे हैं, वे मर्ज किए जाते हैं।

  • Reduce - इस चरण में क्रमबद्ध इनपुट में प्रत्येक <कुंजी, (मानों का संग्रह)> के लिए कम (ऑब्जेक्ट, Iterable, प्रसंग) विधि को कहा जाता है।

तरीका

reduceReducer वर्ग की सबसे प्रमुख विधि है। सिंटैक्स को नीचे परिभाषित किया गया है -

reduce(KEYIN key, Iterable<VALUEIN> values, org.apache.hadoop.mapreduce.Reducer.Context context)

कुंजी-मूल्य जोड़े के संग्रह पर प्रत्येक कुंजी के लिए एक बार इस विधि को बुलाया जाता है।