महावत - त्वरित गाइड
हम एक ऐसे दिन और उम्र में जी रहे हैं जहाँ जानकारी प्रचुर मात्रा में उपलब्ध है। सूचना अधिभार ने इतनी ऊंचाइयों को बढ़ा दिया है कि कभी-कभी हमारे छोटे मेलबॉक्सों को प्रबंधित करना मुश्किल हो जाता है! डेटा की मात्रा की कल्पना करें और कुछ लोकप्रिय वेबसाइटों (फेसबुक, ट्विटर और यूट्यूब की पसंद) को दैनिक आधार पर एकत्र और प्रबंधित करना है। यह कम ज्ञात वेबसाइटों के लिए भी भारी मात्रा में जानकारी प्राप्त करने के लिए असामान्य नहीं है।
आम तौर पर हम रुझानों की पहचान करने और निष्कर्ष निकालने के लिए बल्क डेटा का विश्लेषण करने के लिए डेटा माइनिंग एल्गोरिदम पर वापस आते हैं। हालांकि, कोई डेटा माइनिंग एल्गोरिदम बहुत बड़े डेटासेट को संसाधित करने और त्वरित समय में परिणाम प्रदान करने के लिए पर्याप्त कुशल नहीं हो सकता है, जब तक कि क्लाउड पर वितरित कई मशीनों पर कम्प्यूटेशनल कार्य नहीं चलते हैं।
अब हमारे पास नई रूपरेखाएँ हैं जो हमें कई खंडों में एक संगणना कार्य को तोड़ने और प्रत्येक खंड को एक अलग मशीन पर चलाने की अनुमति देती हैं। Mahout ऐसा डेटा खनन ढांचा है जो आम तौर पर डेटा की विशाल मात्रा का प्रबंधन करने के लिए इसकी पृष्ठभूमि पर Hadoop बुनियादी ढांचे के साथ युग्मित होता है।
क्या है अपाचे महतो?
एक महावत एक है जो अपने गुरु के रूप में एक हाथी को चलाता है। यह नाम इसके करीबी अपाचे हडोप के साथ आता है जो अपने लोगो के रूप में एक हाथी का उपयोग करता है।
Hadoop अपाचे से एक ओपन-सोर्स ढांचा है जो सरल प्रोग्रामिंग मॉडल का उपयोग करके कंप्यूटरों के समूहों में वितरित वातावरण में बड़े डेटा को संग्रहीत और संसाधित करने की अनुमति देता है।
अमरीका की एक मूल जनजाति Mahoutएक ओपन सोर्स प्रोजेक्ट है जो मुख्य रूप से स्केलेबल मशीन लर्निंग एल्गोरिदम बनाने के लिए उपयोग किया जाता है। यह लोकप्रिय मशीन सीखने की तकनीक को लागू करता है जैसे:
- Recommendation
- Classification
- Clustering
Apache Mahout ने 2008 में Apache के Lucene के एक सब-प्रोजेक्ट के रूप में शुरू किया। 2010 में Mahout Apache का एक टॉप लेवल प्रोजेक्ट बन गया।
महतो की विशेषताएँ
Apache Mahout की आदिम विशेषताएँ नीचे सूचीबद्ध हैं।
Houtop के शीर्ष पर Mahout के एल्गोरिदम लिखे गए हैं, इसलिए यह वितरित वातावरण में अच्छा काम करता है। महावत अपाचे हडोप लाइब्रेरी का उपयोग क्लाउड में प्रभावी ढंग से करने के लिए करता है।
महावत कोडर को डेटा के बड़े संस्करणों पर डेटा माइनिंग कार्य करने के लिए एक तैयार-से-उपयोग संरचना प्रदान करता है।
Mahout एप्लिकेशन को प्रभावी रूप से और त्वरित समय में डेटा के बड़े सेट का विश्लेषण करने की अनुमति देता है।
इसमें कई MapReduce सक्षम क्लस्टरिंग कार्यान्वयन जैसे k- साधन, फ़ज़ी k- साधन, चंदवा, Dirichlet और मीन-शिफ़्ट शामिल हैं।
वितरित Naive Bayes और पूरक Naive Bayes वर्गीकरण कार्यान्वयन का समर्थन करता है।
विकासवादी प्रोग्रामिंग के लिए वितरित फिटनेस फ़ंक्शन क्षमताओं के साथ आता है।
मैट्रिक्स और वेक्टर लाइब्रेरी शामिल हैं।
महावत के आवेदन
Adobe, Facebook, LinkedIn, Foursquare, Twitter और Yahoo जैसी कंपनियाँ आंतरिक रूप से Mahout का उपयोग करती हैं।
Foursquare आपको किसी विशेष क्षेत्र में उपलब्ध स्थानों, भोजन और मनोरंजन का पता लगाने में मदद करता है। इसमें Mahout के सिफ़ारिशी इंजन का उपयोग किया गया है।
ट्विटर यूजर की रूचि मॉडलिंग के लिए Mahout का उपयोग करता है।
याहू! पैटर्न खनन के लिए Mahout का उपयोग करता है।
Apache Mahout एक उच्च स्केलेबल मशीन लर्निंग लाइब्रेरी है जो डेवलपर्स को अनुकूलित एल्गोरिदम का उपयोग करने में सक्षम बनाती है। महतो लोकप्रिय मशीन सीखने की तकनीक जैसे सिफारिश, वर्गीकरण और क्लस्टरिंग लागू करते हैं। इसलिए, इससे पहले कि हम आगे बढ़ें, मशीन लर्निंग पर एक संक्षिप्त खंड रखना समझदारी है।
मशीन लर्निंग क्या है?
मशीन लर्निंग विज्ञान की एक शाखा है जो सिस्टम को इस तरह से प्रोग्रामिंग करती है कि वे अनुभव के साथ स्वचालित रूप से सीखते हैं और सुधारते हैं। यहां, सीखने का मतलब इनपुट डेटा को पहचानना और समझना और आपूर्ति किए गए डेटा के आधार पर बुद्धिमानी से निर्णय लेना है।
सभी संभावित आदानों के आधार पर सभी निर्णयों को पूरा करना बहुत मुश्किल है। इस समस्या से निपटने के लिए, एल्गोरिदम विकसित किए जाते हैं। ये एल्गोरिदम विशिष्ट आंकड़ों और अतीत के अनुभव से सांख्यिकी, संभाव्यता सिद्धांत, तर्क, दहनशील अनुकूलन, खोज, सुदृढीकरण सीखने और नियंत्रण सिद्धांत के ज्ञान का निर्माण करते हैं।
विकसित एल्गोरिदम विभिन्न अनुप्रयोगों का आधार बनाते हैं जैसे:
- दृष्टि प्रसंस्करण
- भाषा प्रसंस्करण
- पूर्वानुमान (जैसे, शेयर बाजार के रुझान)
- पैटर्न मान्यता
- Games
- डेटा माइनिंग
- विशेषज्ञ प्रणालियां
- Robotics
मशीन लर्निंग एक विशाल क्षेत्र है और यह इस ट्यूटोरियल के दायरे से काफी परे है ताकि इसकी सभी विशेषताओं को कवर किया जा सके। मशीन लर्निंग तकनीक को लागू करने के कई तरीके हैं, हालांकि सबसे अधिक उपयोग किए जाने वाले हैंsupervised तथा unsupervised learning।
पर्यवेक्षित अध्ययन
उपलब्ध प्रशिक्षण डेटा से एक फ़ंक्शन सीखने के साथ पर्यवेक्षित शिक्षण सौदे। एक पर्यवेक्षित शिक्षण एल्गोरिथ्म प्रशिक्षण डेटा का विश्लेषण करता है और एक अनुमानित फ़ंक्शन का उत्पादन करता है, जिसका उपयोग नए उदाहरणों को मैप करने के लिए किया जा सकता है। पर्यवेक्षित शिक्षण के सामान्य उदाहरणों में शामिल हैं:
- ई-मेल को स्पैम के रूप में वर्गीकृत करना,
- उनकी सामग्री के आधार पर वेबपृष्ठों को लेबल करना, और
- आवाज की पहचान।
तंत्रिका नेटवर्क, सपोर्ट वेक्टर मशीनें (एसवीएम) और नैवे बेस क्लासिफायर जैसे कई पर्यवेक्षित शिक्षण एल्गोरिदम हैं। महतो नेव बेयस क्लासिफायर लागू करता है।
अनसुचित शिक्षा
बिना प्रशिक्षण के बिना किसी प्रशिक्षण के बिना किसी पूर्वनिर्धारित डेटासेट के अनलिस्टेड डेटा की समझ बनती है। उपलब्ध डेटा का विश्लेषण करने और पैटर्न और रुझानों की तलाश के लिए अनसुर्विलाइज्ड लर्निंग एक बेहद शक्तिशाली उपकरण है। यह आमतौर पर तार्किक समूहों में समान इनपुट को क्लस्टर करने के लिए उपयोग किया जाता है। अनुपयोगी शिक्षा के लिए सामान्य दृष्टिकोणों में शामिल हैं:
- k-means
- आत्म-व्यवस्थित मानचित्र, और
- पदानुक्रमित क्लस्टरिंग
सिफ़ारिश करना
सिफारिश एक लोकप्रिय तकनीक है जो पिछली खरीद, क्लिक और रेटिंग जैसी उपयोगकर्ता जानकारी के आधार पर करीबी सिफारिशें प्रदान करती है।
अमेज़ॅन इस तकनीक का उपयोग उन अनुशंसित वस्तुओं की एक सूची प्रदर्शित करने के लिए करता है जिन्हें आप रुचि रखते हैं, अपने पिछले कार्यों से जानकारी खींच सकते हैं। सिफारिशकर्ता इंजन हैं जो उपयोगकर्ता के व्यवहार को पकड़ने के लिए अमेज़ॅन के पीछे काम करते हैं और आपके पहले के कार्यों के आधार पर चयनित वस्तुओं की सिफारिश करते हैं।
फेसबुक "आप जिन लोगों की सूची जान सकते हैं" की पहचान करने और उनकी सिफारिश करने के लिए सिफारिशकर्ता तकनीक का उपयोग करता है।
वर्गीकरण
वर्गीकरण, के रूप में भी जाना जाता है categorization, एक मशीन लर्निंग तकनीक है जो ज्ञात डेटा का उपयोग करती है यह निर्धारित करने के लिए कि नए डेटा को मौजूदा श्रेणियों के सेट में कैसे वर्गीकृत किया जाना चाहिए। वर्गीकरण पर्यवेक्षित शिक्षण का एक रूप है।
याहू जैसे मेल सेवा प्रदाता! और जीमेल इस तकनीक का उपयोग यह तय करने के लिए करता है कि क्या एक नए मेल को स्पैम के रूप में वर्गीकृत किया जाना चाहिए। वर्गीकरण एल्गोरिदम खुद को कुछ मेल को स्पैम के रूप में चिह्नित करने की उपयोगकर्ता की आदतों का विश्लेषण करके प्रशिक्षित करता है। उसके आधार पर, क्लासिफायरियर तय करता है कि भविष्य का मेल आपके इनबॉक्स में या स्पैम फ़ोल्डर में जमा होना चाहिए या नहीं।
आईट्यून्स एप्लिकेशन प्लेलिस्ट को तैयार करने के लिए वर्गीकरण का उपयोग करता है।
क्लस्टरिंग
क्लस्टरिंग का उपयोग सामान्य विशेषताओं के आधार पर समान डेटा के समूह या क्लस्टर बनाने के लिए किया जाता है। क्लस्टरिंग एक प्रकार का अप्रशिक्षित अधिगम है।
Google और Yahoo जैसे सर्च इंजन! समान विशेषताओं वाले समूह डेटा के लिए क्लस्टरिंग तकनीकों का उपयोग करें।
समाचार समूह संबंधित विषयों पर आधारित विभिन्न लेखों को समूहीकृत करने के लिए क्लस्टरिंग तकनीकों का उपयोग करते हैं।
क्लस्टरिंग इंजन पूरी तरह से इनपुट डेटा के माध्यम से जाता है और डेटा की विशेषताओं के आधार पर, यह तय करेगा कि इसे किस समूह में रखा जाना चाहिए। निम्नलिखित उदाहरण पर एक नज़र डालें।
ट्यूटोरियल के हमारे पुस्तकालय में विभिन्न विषयों पर विषय हैं। जब हम TutorialsPoint में एक नया ट्यूटोरियल प्राप्त करते हैं, तो यह एक क्लस्टरिंग इंजन द्वारा संसाधित होता है जो निर्णय लेता है, इसकी सामग्री के आधार पर, जहां इसे समूहीकृत किया जाना चाहिए।
यह अध्याय आपको सिखाता है कि कैसे सेटअप करना है। जावा और हाडोप महावत के पूर्वापेक्षाएँ हैं। नीचे दिए गए जावा, हडोप और महाउट को डाउनलोड और इंस्टॉल करने के चरण दिए गए हैं।
पूर्व-स्थापना सेटअप
Hadoop को Linux वातावरण में स्थापित करने से पहले, हमें लिनक्स का उपयोग करके सेट करना होगा ssh(सुरक्षित कवच)। लिनक्स पर्यावरण की स्थापना के लिए नीचे दिए गए चरणों का पालन करें।
एक उपयोगकर्ता बनाना
Hadoop फ़ाइल सिस्टम को Unix फ़ाइल सिस्टम से अलग करने के लिए Hadoop के लिए एक अलग उपयोगकर्ता बनाने की अनुशंसा की जाती है। उपयोगकर्ता बनाने के लिए नीचे दिए गए चरणों का पालन करें:
कमांड "su" का उपयोग करके ओपन रूट।
- कमांड का उपयोग करके रूट खाते से एक उपयोगकर्ता बनाएं “useradd username”।
अब आप कमांड का उपयोग करके एक मौजूदा उपयोगकर्ता खाता खोल सकते हैं “su username”।
लिनक्स टर्मिनल खोलें और उपयोगकर्ता बनाने के लिए निम्न कमांड टाइप करें।
$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd
SSH सेटअप और मुख्य पीढ़ी
SSH सेटअप को एक क्लस्टर पर अलग-अलग संचालन करने के लिए आवश्यक है जैसे शुरू करना, रोकना, और डेमन शेल संचालन वितरित करना। Hadoop के विभिन्न उपयोगकर्ताओं को प्रमाणित करने के लिए, Hadoop उपयोगकर्ता के लिए सार्वजनिक / निजी कुंजी जोड़ी प्रदान करना और इसे विभिन्न उपयोगकर्ताओं के साथ साझा करना आवश्यक है।
SSH का उपयोग करके एक महत्वपूर्ण मान युग्म बनाने के लिए निम्न आदेशों का उपयोग किया जाता है, सार्वजनिक कुंजी प्रपत्र id_rsa.pub को अधिकृत_कीप्स पर कॉपी करें, और मालिक को, क्रमशः अधिकृत_की फ़ाइल में अनुमतियाँ पढ़ें और लिखें।
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
सत्यापित कर रहा है ssh
ssh localhost
जावा को स्थापित करना
Hadoop और HBase के लिए जावा मुख्य शर्त है। सबसे पहले, आपको "जावा-वर्सन" का उपयोग करके अपने सिस्टम में जावा के अस्तित्व को सत्यापित करना चाहिए। जावा वर्जन कमांड का सिंटैक्स नीचे दिया गया है।
$ java -version
यह निम्नलिखित उत्पादन करना चाहिए।
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
यदि आपके पास अपने सिस्टम में जावा इंस्टॉल नहीं है, तो जावा इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें।
Step 1
निम्नलिखित लिंक पर जाकर जावा (JDK <नवीनतम संस्करण> - X64.tar.gz) डाउनलोड करें: ओरेकल
फिर jdk-7u71-linux-x64.tar.gz is downloaded अपने सिस्टम पर।
Step 2
आम तौर पर, आपको डाउनलोड किए गए जावा फ़ाइल डाउनलोड फ़ोल्डर में मिलते हैं। इसे सत्यापित करें और निकालेंjdk-7u71-linux-x64.gz निम्न आदेशों का उपयोग करके फ़ाइल।
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Step 3
जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट खोलें, और निम्न कमांड टाइप करें।
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
Step 4
स्थापित करने के लिए PATH तथा JAVA_HOME चर, निम्नलिखित कमांड को इसमें जोड़ें ~/.bashrc file।
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin
अब, सत्यापित करें java -version ऊपर बताए अनुसार टर्मिनल से कमांड।
Hadoop डाउनलोड करना
जावा स्थापित करने के बाद, आपको प्रारंभ में Hadoop स्थापित करने की आवश्यकता है। नीचे दिखाए गए अनुसार "Hadoop संस्करण" कमांड का उपयोग करके Hadoop के अस्तित्व को सत्यापित करें।
hadoop version
यह निम्नलिखित उत्पादन का उत्पादन करना चाहिए:
Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar
यदि आपका सिस्टम Hadoop का पता लगाने में असमर्थ है, तो Hadoop को डाउनलोड करें और इसे अपने सिस्टम पर इंस्टॉल करें। ऐसा करने के लिए नीचे दिए गए आदेशों का पालन करें।
निम्नलिखित कमांड का उपयोग करके अपाचे सॉफ्टवेयर फाउंडेशन से हडूप-2.6.0 डाउनलोड करें और निकालें।
$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit
Hadoop स्थापित करना
किसी भी आवश्यक मोड में Hadoop स्थापित करें। यहां, हम छद्म-वितरित मोड में HBase कार्यक्षमता का प्रदर्शन कर रहे हैं, इसलिए छद्म-वितरित मोड में Hadoop स्थापित करें।
इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें Hadoop 2.4.1 आपके सिस्टम पर।
चरण 1: Hadoop की स्थापना
आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
अब, वर्तमान में चल रहे सिस्टम में सभी परिवर्तनों को लागू करें।
$ source ~/.bashrc
चरण 2: Hadoop कॉन्फ़िगरेशन
आप "HADOOP_HOME / etc / hadoop" स्थान पर सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। यह आपके Hadoop इन्फ्रास्ट्रक्चर के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में परिवर्तन करने के लिए आवश्यक है।
$ cd $HADOOP_HOME/etc/hadoop
जावा में Hadoop प्रोग्राम विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh फ़ाइल को प्रतिस्थापित करके JAVA_HOME आपके सिस्टम में जावा के स्थान के साथ मूल्य।
export JAVA_HOME=/usr/local/jdk1.7.0_71
नीचे दिए गए फाइलों की सूची है जिन्हें आपको Hadoop को कॉन्फ़िगर करने के लिए संपादित करना है।
core-site.xml
core-site.xml फ़ाइल में Hadoop उदाहरण के लिए उपयोग की जाने वाली पोर्ट संख्या, फ़ाइल सिस्टम के लिए आवंटित मेमोरी, डेटा संग्रहीत करने के लिए मेमोरी की सीमा और रीड / राइट बफ़र्स के आकार जैसी जानकारी शामिल है।
कोर- site.xml खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xm
hdfs-site.xmlफ़ाइल में आपके स्थानीय फ़ाइल सिस्टम के प्रतिकृति डेटा, नामेनोड पथ और डेटाैनोड पथ के मूल्य जैसी जानकारी होती है। इसका अर्थ है वह स्थान जहाँ आप Hadoop अवसंरचना को संग्रहीत करना चाहते हैं।
आइए हम निम्नलिखित आंकड़ों को मानते हैं:
dfs.replication (data replication value) = 1
(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
इस फ़ाइल को खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
</property>
</configuration>
Note:उपरोक्त फ़ाइल में, सभी संपत्ति मान उपयोगकर्ता परिभाषित हैं। आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।
mapred-site.xml
इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। Mapred-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
इस फ़ाइल का उपयोग यह निर्दिष्ट करने के लिए किया जाता है कि हम किस MapReduce ढांचे का उपयोग कर रहे हैं। डिफ़ॉल्ट रूप से, Hadoop में mapred-site.xml का टेम्प्लेट होता है। सबसे पहले, फ़ाइल से कॉपी करना आवश्यक हैmapred-site.xml.template सेवा mapred-site.xml निम्न कमांड का उपयोग करके फ़ाइल।
$ cp mapred-site.xml.template mapred-site.xml
खुला हुआ mapred-site.xml फ़ाइल और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop स्थापना का सत्यापन
Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।
चरण 1: नाम नोड सेटअप
निम्नानुसार कमांड "hdfs namenode -format" का उपयोग करके नेमेनोड सेट करें:
$ cd ~
$ hdfs namenode -format
अपेक्षित परिणाम इस प्रकार है:
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain
1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
चरण 2: सत्यापन Hadoop dfs
Dfs शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। यह कमांड आपकी Hadoop फाइल सिस्टम को शुरू करता है।
$ start-dfs.sh
अपेक्षित आउटपुट निम्नानुसार है:
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
चरण 3: यार्न स्क्रिप्ट का सत्यापन
यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न दानव शुरू हो जाएंगे।
$ start-yarn.sh
अपेक्षित आउटपुट निम्नानुसार है:
starting yarn daemons
starting resource manager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
चरण 4: ब्राउज़र पर Hadoop तक पहुँचना
हडूप तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। अपने ब्राउज़र पर Hadoop सेवाएँ प्राप्त करने के लिए निम्न URL का उपयोग करें।
http://localhost:50070/
चरण 5: क्लस्टर के लिए सभी एप्लिकेशन सत्यापित करें
क्लस्टर के सभी एप्लिकेशन को एक्सेस करने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा पर जाने के लिए निम्न URL का उपयोग करें।
http://localhost:8088/
डाउनलोडिंग महावत
Mahout वेबसाइट Mahout में उपलब्ध है । वेबसाइट में दिए गए लिंक से डाउनलोड करें। यहाँ वेबसाइट का स्क्रीनशॉट दिया गया है।
चरण 1
लिंक से अपाचे महावत डाउनलोड करें http://mirror.nexcess.net/apache/mahout/ निम्नलिखित कमांड का उपयोग करना।
[Hadoop@localhost ~]$ wget
http://mirror.nexcess.net/apache/mahout/0.9/mahout-distribution-0.9.tar.gz
फिर mahout-distribution-0.9.tar.gz आपके सिस्टम में डाउनलोड हो जाएगा।
चरण 2
फ़ोल्डर के माध्यम से ब्राउज़ करें जहाँ mahout-distribution-0.9.tar.gz जैसा कि नीचे दिखाया गया है डाउनलोड की गई जार फ़ाइल को संग्रहीत और निकालें।
[Hadoop@localhost ~]$ tar zxvf mahout-distribution-0.9.tar.gz
मावेन रिपोजिटरी
नीचे दिया गया pom.xml है जो ग्रहण का उपयोग करके अपाचे महतो का निर्माण करता है।
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-core</artifactId>
<version>0.9</version>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-math</artifactId>
<version>${mahout.version}</version>
</dependency>
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-integration</artifactId>
<version>${mahout.version}</version>
</dependency>
इस अध्याय में लोकप्रिय मशीन लर्निंग तकनीक को शामिल किया गया है recommendation, इसके तंत्र, और महावत की सिफारिश को लागू करने वाला एक आवेदन कैसे लिखा जाए।
सिफ़ारिश करना
कभी आपने सोचा है कि अमेज़ॅन किसी विशेष उत्पाद पर आपका ध्यान आकर्षित करने के लिए अनुशंसित वस्तुओं की सूची के साथ कैसे आता है जिसमें आपकी रुचि हो सकती है!
मान लीजिए आप अमेजन से पुस्तक "महावत इन एक्शन" खरीदना चाहते हैं:
चयनित उत्पाद के साथ, अमेज़ॅन संबंधित अनुशंसित वस्तुओं की एक सूची भी प्रदर्शित करता है, जैसा कि नीचे दिखाया गया है।
ऐसी सिफारिश सूचियों की मदद से निर्मित की जाती हैं recommender engines। महावत कई प्रकार के सुझाए गए इंजन प्रदान करता है जैसे:
- उपयोगकर्ता-आधारित अनुशंसाएँ,
- आइटम-आधारित अनुशंसाएँ, और
- कई अन्य एल्गोरिदम।
महावत अनुशंसा इंजन
Mahout में एक नॉन-डिस्ट्रिब्यूटेड, नॉन-हडोप-बेस्ड सिफारिश इंजन है। आपको एक टेक्स्ट डॉक्यूमेंट पास करना चाहिए जिसमें आइटम के लिए उपयोगकर्ता की प्राथमिकताएँ हों। और इस इंजन का उत्पादन अन्य मदों के लिए एक विशेष उपयोगकर्ता की अनुमानित प्राथमिकताएं होगी।
उदाहरण
ऐसी वेबसाइट पर विचार करें जो उपभोक्ता सामान जैसे मोबाइल, गैजेट्स और उनके सामान बेचती है। अगर हम ऐसी साइट में महतो की सुविधाओं को लागू करना चाहते हैं, तो हम एक सिफारिश इंजन बना सकते हैं। यह इंजन उपयोगकर्ताओं के पिछले खरीद डेटा का विश्लेषण करता है और उसी के आधार पर नए उत्पादों की सिफारिश करता है।
महामुत द्वारा अनुशंसित इंजन बनाने के लिए दिए गए घटक निम्नानुसार हैं:
- DataModel
- UserSimilarity
- ItemSimilarity
- UserNeighborhood
- Recommender
डेटा स्टोर से, डेटा मॉडल तैयार किया जाता है और सिफारिशकर्ता इंजन को इनपुट के रूप में पारित किया जाता है। सिफारिश करने वाला इंजन किसी विशेष उपयोगकर्ता के लिए सिफारिशें देता है। नीचे दिए गए सिफारिश इंजन की वास्तुकला है।
सिफारिश इंजन की वास्तुकला
महावत का उपयोग करते हुए एक सलाहकार का निर्माण
यहां एक सरल अनुशंसाकर्ता को विकसित करने के चरण दिए गए हैं:
Step1: DataModel ऑब्जेक्ट बनाएँ
के निर्माता PearsonCorrelationSimilarityक्लास को एक डेटा मॉडल ऑब्जेक्ट की आवश्यकता होती है, जो एक फाइल रखती है जिसमें किसी उत्पाद के उपयोगकर्ता, आइटम और प्राथमिकताएं शामिल होती हैं। यहाँ नमूना डेटा मॉडल फ़ाइल है:
1,00,1.0
1,01,2.0
1,02,5.0
1,03,5.0
1,04,5.0
2,00,1.0
2,01,2.0
2,05,5.0
2,06,4.5
2,02,5.0
3,01,2.5
3,02,5.0
3,03,4.0
3,04,3.0
4,00,5.0
4,01,5.0
4,02,5.0
4,03,0.0
DataModelऑब्जेक्ट को फ़ाइल ऑब्जेक्ट की आवश्यकता होती है, जिसमें इनपुट फ़ाइल का पथ होता है। बनाएँDataModel नीचे दिखाए अनुसार वस्तु।
DataModel datamodel = new FileDataModel(new File("input file"));
स्टेप 2: यूजरसिमिलिटी ऑब्जेक्ट बनाएं
सृजन करना UserSimilarity वस्तु का उपयोग करना PearsonCorrelationSimilarity नीचे दिखाए अनुसार कक्षा:
UserSimilarity similarity = new PearsonCorrelationSimilarity(datamodel);
Step3: UserNeighborhood ऑब्जेक्ट बनाएँ
यह ऑब्जेक्ट किसी दिए गए उपयोगकर्ता की तरह "पड़ोस" की गणना करता है। पड़ोस दो प्रकार के होते हैं:
NearestNUserNeighborhood- यह वर्ग किसी दिए गए उपयोगकर्ता के निकटतम n उपयोगकर्ताओं से मिलकर एक पड़ोस की गणना करता है । दिए गए UserSimilarity द्वारा "निकटतम" को परिभाषित किया गया है।
ThresholdUserNeighborhood- यह वर्ग उन सभी उपयोगकर्ताओं से युक्त पड़ोस की गणना करता है, जिनके दिए गए उपयोगकर्ता की समानता एक निश्चित सीमा से मिलती है या उससे अधिक है। दिए गए UserSimilarity द्वारा समानता को परिभाषित किया गया है।
यहां हम उपयोग कर रहे हैं ThresholdUserNeighborhood और प्राथमिकता की सीमा को 3.0 पर सेट करें।
UserNeighborhood neighborhood = new ThresholdUserNeighborhood(3.0, similarity, model);
Step4: अनुशंसित वस्तु बनाएँ
सृजन करना UserbasedRecomenderवस्तु। इसके निर्माण के लिए उपरोक्त सभी ऑब्जेक्ट्स पास करें जैसा कि नीचे दिखाया गया है।
UserBasedRecommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity);
Step5: एक उपयोगकर्ता के लिए आइटम की सिफारिश करें
अनुशंसा () विधि का उपयोग करके उपयोगकर्ता को उत्पादों की अनुशंसा करें Recommenderइंटरफेस। इस विधि में दो मापदंडों की आवश्यकता होती है। पहला उपयोगकर्ता के उपयोगकर्ता आईडी का प्रतिनिधित्व करता है जिसे हमें सिफारिशें भेजने की आवश्यकता होती है, और दूसरा अनुशंसाओं की संख्या का प्रतिनिधित्व करता है। यहाँ का उपयोग हैrecommender() तरीका:
List<RecommendedItem> recommendations = recommender.recommend(2, 3);
for (RecommendedItem recommendation : recommendations) {
System.out.println(recommendation);
}
Example Program
नीचे दिए गए सुझाव को निर्धारित करने के लिए एक उदाहरण कार्यक्रम है। उपयोगकर्ता आईडी 2 के साथ उपयोगकर्ता के लिए सिफारिशें तैयार करें।
import java.io.File;
import java.util.List;
import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.cf.taste.impl.neighborhood.ThresholdUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.UserBasedRecommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;
public class Recommender {
public static void main(String args[]){
try{
//Creating data model
DataModel datamodel = new FileDataModel(new File("data")); //data
//Creating UserSimilarity object.
UserSimilarity usersimilarity = new PearsonCorrelationSimilarity(datamodel);
//Creating UserNeighbourHHood object.
UserNeighborhood userneighborhood = new ThresholdUserNeighborhood(3.0, usersimilarity, datamodel);
//Create UserRecomender
UserBasedRecommender recommender = new GenericUserBasedRecommender(datamodel, userneighborhood, usersimilarity);
List<RecommendedItem> recommendations = recommender.recommend(2, 3);
for (RecommendedItem recommendation : recommendations) {
System.out.println(recommendation);
}
}catch(Exception e){}
}
}
निम्नलिखित आदेशों का उपयोग करके कार्यक्रम संकलित करें:
javac Recommender.java
java Recommender
यह निम्नलिखित उत्पादन का उत्पादन करना चाहिए:
RecommendedItem [item:3, value:4.5]
RecommendedItem [item:4, value:4.0]
क्लस्टरिंग किसी दिए गए संग्रह के तत्वों या वस्तुओं को आइटम के बीच समानता के आधार पर समूहों में व्यवस्थित करने की प्रक्रिया है। उदाहरण के लिए, ऑनलाइन समाचार प्रकाशन समूह से संबंधित एप्लिकेशन क्लस्टरिंग का उपयोग करके अपने समाचार लेखों को समूह बनाते हैं।
क्लस्टरिंग के अनुप्रयोग
बाजार अनुसंधान, पैटर्न मान्यता, डेटा विश्लेषण और छवि प्रसंस्करण जैसे कई अनुप्रयोगों में क्लस्टरिंग का व्यापक रूप से उपयोग किया जाता है।
क्लस्टरिंग विपणक को उनके ग्राहक आधार में अलग-अलग समूहों की खोज करने में मदद कर सकता है। और वे खरीद पैटर्न के आधार पर अपने ग्राहक समूहों को चिह्नित कर सकते हैं।
जीव विज्ञान के क्षेत्र में, इसका उपयोग पौधे और जानवरों के वर्गीकरण को प्राप्त करने के लिए किया जा सकता है, समान कार्यक्षमता वाले जीन को वर्गीकृत किया जा सकता है और आबादी में निहित संरचनाओं में अंतर्दृष्टि प्राप्त कर सकता है।
क्लस्टरिंग एक पृथ्वी अवलोकन डेटाबेस में समान भूमि उपयोग के क्षेत्रों की पहचान करने में मदद करता है।
क्लस्टरिंग सूचना खोज के लिए वेब पर दस्तावेजों को वर्गीकृत करने में भी मदद करता है।
क्लस्टरिंग का उपयोग क्रेडिट कार्ड धोखाधड़ी का पता लगाने जैसे बाह्य पता लगाने वाले अनुप्रयोगों में किया जाता है।
डेटा माइनिंग फ़ंक्शन के रूप में, क्लस्टर विश्लेषण प्रत्येक क्लस्टर की विशेषताओं का निरीक्षण करने के लिए डेटा के वितरण में अंतर्दृष्टि प्राप्त करने के लिए एक उपकरण के रूप में कार्य करता है।
Mahout का उपयोग करके, हम डेटा के एक सेट को क्लस्टर कर सकते हैं। आवश्यक कदम इस प्रकार हैं:
Algorithm आपको क्लस्टर के तत्वों को समूहीकृत करने के लिए एक उपयुक्त क्लस्टरिंग एल्गोरिदम का चयन करना होगा।
Similarity and Dissimilarity आपको समूह में मौजूद नए तत्वों और तत्वों के बीच समानता को सत्यापित करने के लिए एक नियम होना चाहिए।
Stopping Condition उस बिंदु को परिभाषित करने के लिए एक रोक स्थिति की आवश्यकता होती है जहां कोई क्लस्टरिंग की आवश्यकता नहीं होती है।
क्लस्टरिंग की प्रक्रिया
आपको दिए गए डेटा को क्लस्टर करने के लिए -
Hadoop सर्वर को प्रारंभ करें। Hadoop फ़ाइल सिस्टम में फ़ाइलों को संग्रहीत करने के लिए आवश्यक निर्देशिकाएँ बनाएँ। (चंदवा के मामले में इनपुट फ़ाइल, अनुक्रम फ़ाइल और क्लस्टर किए गए आउटपुट के लिए निर्देशिका बनाएं)।
Unix फ़ाइल सिस्टम से Hadoop फ़ाइल सिस्टम में इनपुट फ़ाइल की प्रतिलिपि बनाएँ।
इनपुट डेटा से अनुक्रम फ़ाइल तैयार करें।
उपलब्ध क्लस्टरिंग एल्गोरिदम में से कोई भी चलाएं।
संकुल डेटा प्राप्त करें।
Hadoop शुरू
महावत Hadoop के साथ काम करता है, इसलिए सुनिश्चित करें कि Hadoop सर्वर ऊपर और चल रहा है।
$ cd HADOOP_HOME/bin
$ start-all.sh
इनपुट फ़ाइल निर्देशिका तैयार करना
निम्न कमांड का उपयोग करके इनपुट फ़ाइल, अनुक्रम फ़ाइलों और संकुल डेटा को संग्रहीत करने के लिए Hadoop फ़ाइल सिस्टम में निर्देशिका बनाएं:
$ hadoop fs -p mkdir /mahout_data
$ hadoop fs -p mkdir /clustered_data
$ hadoop fs -p mkdir /mahout_seq
आप यह सत्यापित कर सकते हैं कि निर्देशिका निम्न URL में हडूप वेब इंटरफेस का उपयोग करके बनाई गई है या नहीं - http://localhost:50070/
यह आपको नीचे दिखाए अनुसार आउटपुट देता है:
HDFS को इनपुट फाइल कॉपी करना
अब, नीचे बताए अनुसार Hadoop फाइल सिस्टम में Linux फ़ाइल सिस्टम से mahout_data निर्देशिका में इनपुट डेटा फ़ाइल की प्रतिलिपि बनाएँ। मान लें कि आपकी इनपुट फ़ाइल mydata.txt है और यह / होम / Hadoop / डेटा / निर्देशिका में है।
$ hadoop fs -put /home/Hadoop/data/mydata.txt /mahout_data/
अनुक्रम फ़ाइल तैयार करना
महावत आपको दिए गए इनपुट फ़ाइल को एक अनुक्रम फ़ाइल प्रारूप में परिवर्तित करने के लिए एक उपयोगिता प्रदान करता है। इस उपयोगिता के लिए दो मापदंडों की आवश्यकता होती है।
- इनपुट फ़ाइल निर्देशिका जहां मूल डेटा रहता है।
- आउटपुट फ़ाइल निर्देशिका जहाँ संकुल डेटा संग्रहीत किया जाना है।
नीचे दिए गए महावत की सहायता संकेत है seqdirectory उपयोगिता।
Step 1:Mahout घर निर्देशिका के लिए ब्राउज़ करें। आप नीचे दिखाए अनुसार उपयोगिता की मदद ले सकते हैं:
[Hadoop@localhost bin]$ ./mahout seqdirectory --help
Job-Specific Options:
--input (-i) input Path to job input directory.
--output (-o) output The directory pathname for output.
--overwrite (-ow) If present, overwrite the output directory
निम्न सिंटैक्स का उपयोग कर उपयोगिता का उपयोग करके अनुक्रम फ़ाइल बनाएं:
mahout seqdirectory -i <input file path> -o <output directory>
Example
mahout seqdirectory
-i hdfs://localhost:9000/mahout_seq/
-o hdfs://localhost:9000/clustered_data/
क्लस्टरिंग एल्गोरिदम
Mahout क्लस्टरिंग के लिए दो मुख्य एल्गोरिदम का समर्थन करता है:
- चंदवा क्लस्टरिंग
- K- मतलब क्लस्टरिंग
चंदवा क्लस्टरिंग
चंदवा क्लस्टरिंग एक सरल और तेज़ तकनीक है जिसका उपयोग महुट द्वारा क्लस्टरिंग उद्देश्य के लिए किया जाता है। वस्तुओं को एक सादे स्थान में बिंदुओं के रूप में माना जाएगा। इस तकनीक का उपयोग अक्सर अन्य क्लस्टरिंग तकनीकों जैसे कि-साधन क्लस्टरिंग में एक प्रारंभिक कदम के रूप में किया जाता है। आप निम्नलिखित सिंटैक्स का उपयोग करके कैनोपी नौकरी चला सकते हैं:
mahout canopy -i <input vectors directory>
-o <output directory>
-t1 <threshold value 1>
-t2 <threshold value 2>
चंदवा नौकरी के लिए अनुक्रम फ़ाइल के साथ एक इनपुट फ़ाइल निर्देशिका और एक आउटपुट निर्देशिका की आवश्यकता होती है जहां संकुल डेटा संग्रहीत किया जाना है।
Example
mahout canopy -i hdfs://localhost:9000/mahout_seq/mydata.seq
-o hdfs://localhost:9000/clustered_data
-t1 20
-t2 30
आपको दिए गए आउटपुट निर्देशिका में उत्पन्न क्लस्टर डेटा प्राप्त होगा।
K- मतलब क्लस्टरिंग
K- साधन क्लस्टरिंग एक महत्वपूर्ण क्लस्टरिंग एल्गोरिथ्म है। K- का मतलब क्लस्टरिंग एल्गोरिथ्म में डेटा को विभाजित करने वाले क्लस्टर की संख्या को दर्शाता है। उदाहरण के लिए, इस एल्गोरिथ्म में निर्दिष्ट k मान 3 के रूप में चुना गया है, एल्गोरिथ्म डेटा को 3 समूहों में विभाजित करने जा रहा है।
प्रत्येक वस्तु को अंतरिक्ष में वेक्टर के रूप में दर्शाया जाएगा। प्रारंभ में k अंक को एल्गोरिथम द्वारा बेतरतीब ढंग से चुना जाएगा और केंद्र के रूप में माना जाएगा, प्रत्येक केंद्र के निकटतम प्रत्येक वस्तु को क्लस्टर किया जाता है। दूरी मापने के लिए कई एल्गोरिदम हैं और उपयोगकर्ता को आवश्यक एक का चयन करना चाहिए।
Creating Vector Files
चंदवा एल्गोरिथ्म के विपरीत, k- साधन एल्गोरिथ्म को इनपुट के रूप में वेक्टर फ़ाइलों की आवश्यकता होती है, इसलिए आपको वेक्टर फाइलें बनाना होगा।
अनुक्रम फ़ाइल प्रारूप से वेक्टर फाइलें उत्पन्न करने के लिए, Mahout प्रदान करता है seq2parse उपयोगिता।
नीचे दिए गए विकल्पों में से कुछ हैं seq2parseउपयोगिता। इन विकल्पों का उपयोग करके वेक्टर फाइलें बनाएं।
$MAHOUT_HOME/bin/mahout seq2sparse
--analyzerName (-a) analyzerName The class name of the analyzer
--chunkSize (-chunk) chunkSize The chunkSize in MegaBytes.
--output (-o) output The directory pathname for o/p
--input (-i) input Path to job input directory.
वैक्टर बनाने के बाद, k- साधन एल्गोरिथ्म के साथ आगे बढ़ें। K-mean job चलाने का सिंटैक्स इस प्रकार है:
mahout kmeans -i <input vectors directory>
-c <input clusters directory>
-o <output working directory>
-dm <Distance Measure technique>
-x <maximum number of iterations>
-k <number of initial clusters>
K- साधन क्लस्टरिंग जॉब के लिए इनपुट वेक्टर डायरेक्टरी, आउटपुट क्लस्टर्स डाइरेक्टरी, डिस्टेंस मेजरमेंट, अधिकतम संख्या में पुनरावृत्तियों को अंजाम देना होता है, और इनपुट डेटा को क्लस्टर्स की संख्या को दर्शाने वाले पूर्णांक मान को विभाजित करना होता है।
वर्गीकरण क्या है?
वर्गीकरण एक मशीन सीखने की तकनीक है जो ज्ञात डेटा का उपयोग करती है यह निर्धारित करने के लिए कि नए डेटा को मौजूदा श्रेणियों के सेट में कैसे वर्गीकृत किया जाना चाहिए। उदाहरण के लिए,
आईट्यून्स एप्लिकेशन प्लेलिस्ट को तैयार करने के लिए वर्गीकरण का उपयोग करता है।
याहू जैसे मेल सेवा प्रदाता! और जीमेल इस तकनीक का उपयोग यह तय करने के लिए करता है कि क्या एक नए मेल को स्पैम के रूप में वर्गीकृत किया जाना चाहिए। वर्गीकरण एल्गोरिदम खुद को कुछ मेल को स्पैम के रूप में चिह्नित करने की उपयोगकर्ता की आदतों का विश्लेषण करके प्रशिक्षित करता है। उसके आधार पर, क्लासिफायरियर तय करता है कि भविष्य का मेल आपके इनबॉक्स में या स्पैम फ़ोल्डर में जमा होना चाहिए या नहीं।
वर्गीकरण कैसे काम करता है
डेटा के दिए गए सेट को वर्गीकृत करते समय, क्लासिफायर सिस्टम निम्नलिखित क्रियाएं करता है:
- प्रारंभ में एक नया डेटा मॉडल सीखने के किसी भी एल्गोरिदम का उपयोग करके तैयार किया जाता है।
- फिर तैयार डेटा मॉडल का परीक्षण किया जाता है।
- इसके बाद, इस डेटा मॉडल का उपयोग नए डेटा का मूल्यांकन करने और उसकी कक्षा निर्धारित करने के लिए किया जाता है।
वर्गीकरण के अनुप्रयोग
Credit card fraud detection- क्रेडिट कार्ड धोखाधड़ी की भविष्यवाणी करने के लिए वर्गीकरण तंत्र का उपयोग किया जाता है। पिछले धोखाधड़ी की ऐतिहासिक जानकारी का उपयोग करते हुए, वर्गीकरणकर्ता यह अनुमान लगा सकता है कि भविष्य के लेनदेन धोखाधड़ी में बदल सकते हैं।
Spam e-mails - पिछले स्पैम मेल्स की विशेषताओं के आधार पर, क्लासिफायरियर यह निर्धारित करता है कि क्या एक नए सामने वाले ई-मेल को स्पैम फ़ोल्डर में भेजा जाना चाहिए।
नैवे बेस क्लासिफायर
Mahout Naive Bayes क्लासिफायर एल्गोरिथ्म का उपयोग करता है। यह दो कार्यान्वयन का उपयोग करता है:
- वितरित नैवे बेस वर्गीकरण
- पूरक Naive Bayes वर्गीकरण
क्लासीफायर के निर्माण के लिए Naive Bayes एक सरल तकनीक है। यह इस तरह के क्लासीफायर के प्रशिक्षण के लिए एक एल्गोरिथ्म नहीं है, लेकिन एल्गोरिदम का एक परिवार है। एक बेयस क्लासिफायरियर ने समस्या उदाहरणों को वर्गीकृत करने के लिए मॉडल का निर्माण किया। ये वर्गीकरण उपलब्ध डेटा का उपयोग करके किए गए हैं।
भोले की खाड़ी का एक फायदा यह है कि इसे केवल वर्गीकरण के लिए आवश्यक मापदंडों का अनुमान लगाने के लिए थोड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है।
कुछ प्रकार के प्रायिकता मॉडल के लिए, अनुभवहीन सीखने की सेटिंग में भोले बेयस को वर्गीकृत किया जा सकता है।
इसकी ओवरसीप्लाइज्ड मान्यताओं के बावजूद, भोले बेयस क्लासिफायर ने कई जटिल वास्तविक दुनिया की स्थितियों में काफी अच्छा काम किया है।
वर्गीकरण की प्रक्रिया
वर्गीकरण को लागू करने के लिए निम्नलिखित चरणों का पालन किया जाना चाहिए:
- उदाहरण डेटा उत्पन्न करें
- डेटा से अनुक्रम फ़ाइलें बनाएँ
- वैक्टर के लिए अनुक्रम फ़ाइलों में कनवर्ट करें
- वैक्टर को प्रशिक्षित करें
- वैक्टर का परीक्षण करें
Step1: उदाहरण डेटा उत्पन्न करें
वर्गीकृत किए जाने वाले डेटा को जेनरेट या डाउनलोड करें। उदाहरण के लिए, आप प्राप्त कर सकते हैं20 newsgroups निम्न लिंक से उदाहरण डेटा: http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz
इनपुट डेटा संग्रहीत करने के लिए एक निर्देशिका बनाएं। नीचे दिए गए उदाहरण के रूप में डाउनलोड करें।
$ mkdir classification_example
$ cd classification_example
$tar xzvf 20news-bydate.tar.gz
wget http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz
चरण 2: अनुक्रम फ़ाइलें बनाएँ
उपयोग कर उदाहरण से अनुक्रम फ़ाइल बनाएँ seqdirectoryउपयोगिता। अनुक्रम उत्पन्न करने का सिंटैक्स नीचे दिया गया है:
mahout seqdirectory -i <input file path> -o <output directory>
चरण 3: अनुक्रम फ़ाइलों को वैक्टर में बदलें
उपयोग कर अनुक्रम फ़ाइलों से वेक्टर फाइलें बनाएं seq2parseउपयोगिता। के विकल्पseq2parse उपयोगिता नीचे दी गई है:
$MAHOUT_HOME/bin/mahout seq2sparse
--analyzerName (-a) analyzerName The class name of the analyzer
--chunkSize (-chunk) chunkSize The chunkSize in MegaBytes.
--output (-o) output The directory pathname for o/p
--input (-i) input Path to job input directory.
चरण 4: प्रशिक्षकों को प्रशिक्षित करें
का उपयोग कर उत्पन्न वैक्टर को प्रशिक्षित करें trainnbउपयोगिता। उपयोग करने के लिए विकल्पtrainnb उपयोगिता नीचे दी गई है:
mahout trainnb
-i ${PATH_TO_TFIDF_VECTORS}
-el
-o ${PATH_TO_MODEL}/model
-li ${PATH_TO_MODEL}/labelindex
-ow
-c
चरण 5: वैक्टर का परीक्षण करें
उपयोग करने वाले वैक्टर का परीक्षण करें testnbउपयोगिता। उपयोग करने के लिए विकल्पtestnb उपयोगिता नीचे दी गई है:
mahout testnb
-i ${PATH_TO_TFIDF_TEST_VECTORS}
-m ${PATH_TO_MODEL}/model
-l ${PATH_TO_MODEL}/labelindex
-ow
-o ${PATH_TO_OUTPUT}
-c
-seq