MapReduce - एल्गोरिथम

MapReduce एल्गोरिथ्म में दो महत्वपूर्ण कार्य हैं, अर्थात् मानचित्र और कमी।

  • मैप टास्क मैपर क्लास के माध्यम से किया जाता है
  • कम करने का कार्य Reducer Class के माध्यम से किया जाता है।

मैपर वर्ग इनपुट लेता है, इसे टोकन करता है, मैप करता है और इसे सॉर्ट करता है। Mapper वर्ग के आउटपुट का उपयोग Reducer वर्ग द्वारा इनपुट के रूप में किया जाता है, जो बदले में मिलान जोड़े की खोज करता है और उन्हें कम करता है।

MapReduce विभिन्न गणितीय एल्गोरिदम को एक कार्य को छोटे भागों में विभाजित करने और उन्हें कई प्रणालियों में असाइन करने के लिए लागू करता है। तकनीकी शब्दों में, MapReduce एल्गोरिथ्म मानचित्र और कार्यों को एक क्लस्टर में उपयुक्त सर्वर पर भेजने में मदद करता है।

इन गणितीय एल्गोरिदम में निम्नलिखित शामिल हो सकते हैं -

  • Sorting
  • Searching
  • Indexing
  • TF-IDF

छंटाई

डेटा को संसाधित करने और उसका विश्लेषण करने के लिए छाँटना मूल MapReduce एल्गोरिदम में से एक है। MapReduce एल्गोरिथ्म को क्रमबद्ध करने के लिए स्वचालित रूप से उनकी कुंजी द्वारा मैपर से आउटपुट की-वैल्यू जोड़े को सॉर्ट करने के लिए छाँटने वाले औजार

  • मैपर वर्ग में ही छंटाई के तरीके लागू होते हैं।

  • शफल और सॉर्ट चरण में, मैपर वर्ग में मूल्यों को टोकन करने के बाद, ए Context वर्ग (उपयोगकर्ता-परिभाषित वर्ग) एक संग्रह के रूप में मिलान योग्य कुंजी एकत्र करता है।

  • समान कुंजी-मूल्य जोड़े (मध्यवर्ती कुंजी) को इकट्ठा करने के लिए, मैपर वर्ग की मदद लेता है RawComparator मुख्य-मूल्य जोड़े को सॉर्ट करने के लिए क्लास।

  • किसी दिए गए Reducer के लिए मध्यवर्ती कुंजी-मूल्य जोड़े का सेट स्वचालित रूप से Hadoop द्वारा सॉर्ट-मान (K2, {V2, V2,…}) बनाने के लिए सॉर्ट किया जाता है ताकि वे Reducer के सामने प्रस्तुत किए जा सकें।

खोज कर

MapReduce एल्गोरिथ्म में खोज एक महत्वपूर्ण भूमिका निभाता है। यह कॉम्बिनर चरण (वैकल्पिक) और Reducer चरण में मदद करता है। आइए समझने की कोशिश करें कि खोज एक उदाहरण की मदद से कैसे काम करता है।

उदाहरण

निम्न उदाहरण से पता चलता है कि MapReduce किसी कर्मचारी के डेटासेट में सबसे अधिक वेतन पाने वाले कर्मचारी के विवरण का पता लगाने के लिए खोज एल्गोरिदम को कैसे नियोजित करता है।

  • मान लें कि हमारे पास चार अलग-अलग फ़ाइलों में कर्मचारी डेटा है - ए, बी, सी और डी। हमें यह भी मान लें कि सभी डेटाबेस तालिकाओं से बार-बार कर्मचारी डेटा आयात करने के कारण सभी चार फ़ाइलों में डुप्लिकेट कर्मचारी रिकॉर्ड हैं। निम्नलिखित दृष्टांत देखें।

  • The Map phaseप्रत्येक इनपुट फ़ाइल को संसाधित करता है और कुंजी-मूल्य जोड़े में कर्मचारी डेटा प्रदान करता है (<k, v>: <एम्प नाम, वेतन>)। निम्नलिखित दृष्टांत देखें।

  • The combiner phase(खोज तकनीक) मैप चरण से इनपुट को कर्मचारी के नाम और वेतन के साथ एक महत्वपूर्ण-मूल्य जोड़ी के रूप में स्वीकार करेगा। खोज तकनीक का उपयोग करते हुए, कंबाइनर प्रत्येक फ़ाइल में उच्चतम वेतन वाले कर्मचारी को खोजने के लिए सभी कर्मचारी वेतन की जांच करेगा। निम्नलिखित स्निपेट देखें।

<k: employee name, v: salary>
Max= the salary of an first employee. Treated as max salary

if(v(second employee).salary > Max){
   Max = v(salary);
}

else{
   Continue checking;
}

अपेक्षित परिणाम इस प्रकार है -

<सतीश, २६०००>

<गोपाल, ५००००>

<किरान, 45000>

<मनीषा, ४५०००>

  • Reducer phase- प्रत्येक फ़ाइल को फॉर्म में, आपको उच्चतम वेतनभोगी कर्मचारी मिलेगा। अतिरेक से बचने के लिए, सभी <k, v> जोड़े की जांच करें और यदि कोई हो, तो डुप्लिकेट प्रविष्टियों को समाप्त करें। समान एल्गोरिथ्म का उपयोग चार <k, v> जोड़े के बीच किया जाता है, जो चार इनपुट फ़ाइलों से आ रहे हैं। अंतिम आउटपुट निम्नानुसार होना चाहिए -

<gopal, 50000>

इंडेक्सिंग

आम तौर पर इंडेक्सिंग का उपयोग किसी विशेष डेटा और उसके पते को इंगित करने के लिए किया जाता है। यह एक विशेष मैपर के लिए इनपुट फाइलों पर बैच इंडेक्सिंग करता है।

इंडेक्सिंग तकनीक जिसे आमतौर पर MapReduce में उपयोग किया जाता है, के रूप में जाना जाता है inverted index.Google और बिंग जैसे सर्च इंजन उल्टे इंडेक्सिंग तकनीक का उपयोग करते हैं। आइए हम यह समझने की कोशिश करें कि एक सरल उदाहरण की मदद से अनुक्रमण कैसे काम करता है।

उदाहरण

निम्नलिखित पाठ उल्टे अनुक्रमण के लिए इनपुट है। यहाँ T [0], T [1] और t [2] फ़ाइल नाम हैं और उनकी सामग्री दोहरे उद्धरण चिह्नों में है।

T[0] = "it is what it is"
T[1] = "what is it"
T[2] = "it is a banana"

इंडेक्सिंग एल्गोरिदम को लागू करने के बाद, हमें निम्न आउटपुट मिलते हैं -

"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}

यहाँ "a": {2} का तात्पर्य "a" T [2] फ़ाइल में दिखाई देता है। इसी तरह, "is": {0, 1, 2} का तात्पर्य शब्द है "T" [0], T [1] और T [2] फाइलों में दिखाई देता है।

TF-आईडीएफ

TF-IDF एक टेक्स्ट प्रोसेसिंग एल्गोरिथ्म है जो टर्म फ़्रीक्वेंसी के लिए छोटा है - उलटा डॉक्यूमेंट फ़्रीक्वेंसी। यह सामान्य वेब विश्लेषण एल्गोरिदम में से एक है। यहाँ, 'आवृति' शब्द से तात्पर्य किसी दस्तावेज़ में किसी शब्द के प्रकट होने की संख्या से है।

टर्म फ़्रीक्वेंसी (TF)

यह मापता है कि किसी दस्तावेज़ में कोई विशेष शब्द कितनी बार होता है। यह उस दस्तावेज़ में शब्दों की कुल संख्या से विभाजित दस्तावेज़ में दिखाई देने वाले शब्दों की संख्या से गणना की जाती है।

TF(the) = (Number of times term the ‘the’ appears in a document) / (Total number of terms in the document)

उलटा दस्तावेज़ फ़्रिक्वेंसी (IDF)

यह एक शब्द के महत्व को मापता है। इसकी गणना पाठ डेटाबेस में दस्तावेजों की संख्या से विभाजित की जाती है जहां दस्तावेजों की संख्या एक विशिष्ट शब्द दिखाई देती है।

TF की गणना करते समय, सभी शब्दों को समान रूप से महत्वपूर्ण माना जाता है। इसका मतलब है कि, TF सामान्य शब्दों की आवृत्ति की गणना करता है जैसे ",", "ए", "क्या", आदि। इस प्रकार हमें दुर्लभ शब्दों को स्केल करते हुए बार-बार जानने की जरूरत है, निम्नलिखित की गणना करके -

IDF(the) = log_e(Total number of documents / Number of documents with term ‘the’ in it).

एल्गोरिथ्म को एक छोटे से उदाहरण की मदद से नीचे समझाया गया है।

उदाहरण

एक दस्तावेज पर विचार करें जिसमें 1000 शब्द हों, जिसमें शब्द हो hive50 बार दिखाई देता है। के लिए TFhive तब (50/1000) = 0.05 है।

अब, मान लें कि हमारे पास 10 मिलियन दस्तावेज और शब्द हैं hiveइनमें से 1000 में दिखाई देता है। फिर, आईडीएफ को लॉग (10,000,000 / 1,000) = 4 के रूप में गणना की जाती है।

टीएफ-आईडीएफ वजन इन मात्राओं का उत्पाद है - 0.05 × 4 = 0.20।