वीका - त्वरित गाइड

किसी भी मशीन लर्निंग एप्लिकेशन की नींव डेटा है - न केवल एक छोटा डेटा, बल्कि एक बड़ा डेटा जो इसे करार दिया जाता है Big Data वर्तमान शब्दावली में।

बड़े डेटा का विश्लेषण करने के लिए मशीन को प्रशिक्षित करने के लिए, आपको डेटा पर कई विचार करने की आवश्यकता है -

  • डेटा साफ होना चाहिए।
  • इसमें शून्य मान नहीं होना चाहिए।

इसके अलावा, डेटा तालिका के सभी कॉलम उन प्रकारों के लिए उपयोगी नहीं होंगे जिन्हें आप प्राप्त करने की कोशिश कर रहे हैं। मशीन लर्निंग शब्दावली में अप्रासंगिक डेटा कॉलम या 'फीचर्स', जिसे मशीन लर्निंग एल्गोरिदम में डेटा फीड किए जाने से पहले हटा दिया जाना चाहिए।

संक्षेप में, मशीन लर्निंग के लिए उपयोग किए जाने से पहले आपके बड़े डेटा को बहुत अधिक प्रीप्रोसेसिंग की आवश्यकता होती है। डेटा तैयार होने के बाद, आप अपने अंत में समस्या को हल करने के लिए विभिन्न मशीन लर्निंग एल्गोरिदम जैसे कि वर्गीकरण, प्रतिगमन, क्लस्टरिंग आदि को लागू करेंगे।

आपके द्वारा लागू किए गए एल्गोरिदम का प्रकार आपके डोमेन ज्ञान पर काफी हद तक आधारित है। यहां तक ​​कि एक ही प्रकार के भीतर, उदाहरण के वर्गीकरण के लिए, कई एल्गोरिदम उपलब्ध हैं। आप एक कुशल मशीन लर्निंग मॉडल बनाने के लिए एक ही वर्ग के तहत विभिन्न एल्गोरिदम का परीक्षण करना पसंद कर सकते हैं। ऐसा करते समय, आप संसाधित डेटा के विज़ुअलाइज़ेशन को पसंद करेंगे और इस प्रकार आपको विज़ुअलाइज़ेशन टूल की भी आवश्यकता होगी।

आने वाले अध्यायों में, आप वेका के बारे में जानेंगे, जो एक ऐसा सॉफ्टवेयर है जो आसानी से उपरोक्त सभी को पूरा करता है और आपको बड़े आराम से काम करने देता है।

WEKA - एक ओपन सोर्स सॉफ़्टवेयर डेटा प्रीप्रोसेसिंग, कई मशीन लर्निंग एल्गोरिदम के कार्यान्वयन और विज़ुअलाइज़ेशन टूल के लिए उपकरण प्रदान करता है ताकि आप मशीन सीखने की तकनीक विकसित कर सकें और उन्हें वास्तविक दुनिया डेटा खनन समस्याओं पर लागू कर सकें। WEKA के प्रस्ताव को निम्नलिखित चित्र में संक्षेप में प्रस्तुत किया गया है -

यदि आप छवि के प्रवाह की शुरुआत का निरीक्षण करते हैं, तो आप समझेंगे कि बिग डेटा से निपटने के लिए कई चरण हैं जो मशीन के लिए उपयुक्त हैं -

सबसे पहले, आप फ़ील्ड से एकत्र किए गए कच्चे डेटा के साथ शुरू करेंगे। इस डेटा में कई अशक्त मूल्य और अप्रासंगिक क्षेत्र हो सकते हैं। आप डेटा को साफ करने के लिए WEKA में दिए गए डेटा प्रीप्रोसेसिंग टूल का उपयोग करते हैं।

फिर, आप एमएल एल्गोरिदम लागू करने के लिए अपने स्थानीय भंडारण में पूर्वप्रक्रमित डेटा को बचाएंगे।

इसके बाद, आप जिस तरह के एमएल मॉडल को विकसित करने की कोशिश कर रहे हैं, उसके आधार पर आप इस तरह के विकल्पों में से एक का चयन करेंगे Classify, Cluster, या AssociateAttributes Selection कम डेटासेट बनाने के लिए सुविधाओं के स्वत: चयन की अनुमति देता है।

ध्यान दें कि प्रत्येक श्रेणी के तहत, WEKA कई एल्गोरिदम का कार्यान्वयन प्रदान करता है। आप अपनी पसंद का एक एल्गोरिथ्म चुनेंगे, वांछित पैरामीटर सेट करेंगे और इसे डेटासेट पर चलाएंगे।

फिर, WEKA आपको मॉडल प्रोसेसिंग का सांख्यिकीय आउटपुट देगा। यह आपको डेटा का निरीक्षण करने के लिए एक विज़ुअलाइज़ेशन टूल प्रदान करता है।

विभिन्न मॉडलों को एक ही डाटासेट पर लागू किया जा सकता है। फिर आप विभिन्न मॉडलों के आउटपुट की तुलना कर सकते हैं और अपने उद्देश्य को पूरा करने वाले सर्वश्रेष्ठ का चयन कर सकते हैं।

इस प्रकार, WEKA के उपयोग से मशीन सीखने के मॉडल का तेजी से विकास होता है।

अब जब हमने देखा है कि WEKA क्या है और यह क्या करता है, तो अगले अध्याय में हम जानें कि WEKA को अपने स्थानीय कंप्यूटर पर कैसे स्थापित करें।

अपनी मशीन पर WEKA स्थापित करने के लिए, WEKA की आधिकारिक वेबसाइट पर जाएं और इंस्टॉलेशन फ़ाइल डाउनलोड करें। WEKA विंडोज, मैक ओएस एक्स और लिनक्स पर इंस्टॉलेशन का समर्थन करता है। आपको अपने OS के लिए WEKA स्थापित करने के लिए बस इस पृष्ठ पर दिए गए निर्देशों का पालन करना होगा।

मैक पर स्थापित करने के लिए कदम इस प्रकार हैं -

  • मैक स्थापना फ़ाइल डाउनलोड करें।
  • डाउनलोड पर डबल क्लिक करें weka-3-8-3-corretto-jvm.dmg file

आप सफल इंस्टॉलेशन पर निम्न स्क्रीन देखेंगे।

  • पर क्लिक करें weak-3-8-3-corretto-jvm आइकन Weka शुरू करने के लिए।
  • वैकल्पिक रूप से आप इसे कमांड लाइन से शुरू कर सकते हैं -
java -jar weka.jar

WEKA GUI चयनकर्ता आवेदन शुरू हो जाएगा और आपको निम्न स्क्रीन दिखाई देगी -

GUI Chooser एप्लिकेशन आपको यहां सूचीबद्ध के रूप में पांच अलग-अलग प्रकार के एप्लिकेशन चलाने की अनुमति देता है -

  • Explorer
  • Experimenter
  • KnowledgeFlow
  • Workbench
  • सरल सीएलआई

हम उपयोग करेंगे Explorer इस ट्यूटोरियल में।

इस अध्याय में, हम विभिन्न कार्यक्षमताओं पर गौर करते हैं जो एक्सप्लोरर बड़े डेटा के साथ काम करने के लिए प्रदान करता है।

जब आप पर क्लिक करेंगे Explorer में बटन Applications चयनकर्ता, यह निम्न स्क्रीन खोलता है -

शीर्ष पर, आपको यहां सूचीबद्ध के रूप में कई टैब दिखाई देंगे -

  • Preprocess
  • Classify
  • Cluster
  • Associate
  • गुण का चयन करें
  • Visualize

इन टैब के तहत, कई पूर्व-लागू मशीन लर्निंग एल्गोरिदम हैं। आइए अब हम उनमें से प्रत्येक पर विस्तार से देखें।

प्रीप्रोसेस टैब

प्रारंभ में जैसे ही आप एक्सप्लोरर खोलते हैं, केवल Preprocessटैब सक्षम है। मशीन लर्निंग में पहला कदम डेटा को प्रीप्रोसेस करना है। इस प्रकार, मेंPreprocess विकल्प, आप डेटा फ़ाइल का चयन करेंगे, इसे प्रोसेस करेंगे और विभिन्न मशीन लर्निंग एल्गोरिदम को लागू करने के लिए इसे फिट बनाएंगे।

टैब को वर्गीकृत करें

Classifyटैब आपको आपके डेटा के वर्गीकरण के लिए कई मशीन लर्निंग एल्गोरिदम प्रदान करता है। कुछ को सूचीबद्ध करने के लिए, आप लाइनर रिग्रेशन, लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीन, डिसीजन ट्री, रैंडमट्री, रैंडमफॉरस्ट, नैवेबेस, इत्यादि जैसे एल्गोरिदम लगा सकते हैं। सूची बहुत संपूर्ण है और पर्यवेक्षित और अनुपयोगी मशीन लर्निंग एल्गोरिदम दोनों प्रदान करती है।

क्लस्टर टैब

के नीचे Cluster टैब, कई क्लस्टरिंग एल्गोरिदम प्रदान किए जाते हैं - जैसे कि सिंपलकेमन्स, फिल्टर्डक्लेस्टर, हायरार्चिकल क्लस्टर और इतने पर।

सहयोगी टैब

के नीचे Associate टैब, आप Apriori, FilteredAssociator और FPGrowth मिलेगा।

टैब का चयन करें

Select Attributes आपको कई एल्गोरिदम जैसे कि ClassifierSubsetEval, प्रिंसीपिपल.कॉम, आदि के आधार पर चयन की सुविधा देता है।

टैब की कल्पना करें

अंत में, Visualize विकल्प आपको विश्लेषण के लिए अपने संसाधित डेटा की कल्पना करने की अनुमति देता है।

जैसा कि आपने देखा, WEKA आपके मशीन सीखने के अनुप्रयोगों के परीक्षण और निर्माण के लिए कई तैयार-से-उपयोग एल्गोरिदम प्रदान करता है। WEKA को प्रभावी ढंग से उपयोग करने के लिए, आपके पास इन एल्गोरिदमों का एक अच्छा ज्ञान होना चाहिए, कि वे कैसे काम करते हैं, किसी को किस परिस्थिति में चुनना है, उनके संसाधित आउटपुट में क्या देखना है, और इसी तरह। संक्षेप में, आपके पास अपने ऐप्स के निर्माण में WEKA का प्रभावी ढंग से उपयोग करने के लिए मशीन लर्निंग में एक ठोस आधार होना चाहिए।

आगामी अध्यायों में, आप एक्सप्लोरर में प्रत्येक टैब का गहराई से अध्ययन करेंगे।

इस अध्याय में, हम पहले टैब से शुरू करते हैं जिसका उपयोग आप डेटा को प्रीप्रोसेस करने के लिए करते हैं। यह सभी एल्गोरिदम के लिए सामान्य है जो आप मॉडल के निर्माण के लिए अपने डेटा पर लागू करेंगे और WEKA में सभी बाद के कार्यों के लिए एक सामान्य कदम है।

स्वीकार्य सटीकता प्रदान करने के लिए मशीन लर्निंग एल्गोरिदम के लिए, यह महत्वपूर्ण है कि आपको पहले अपना डेटा साफ़ करना चाहिए। इसका कारण यह है कि फ़ील्ड से एकत्र किए गए कच्चे डेटा में अशक्त मूल्य, अप्रासंगिक कॉलम और इतने पर हो सकते हैं।

इस अध्याय में, आप आगे के उपयोग के लिए कच्चे डेटा को प्रीप्रोसेस करने और स्वच्छ, सार्थक डेटासेट बनाने का तरीका जानेंगे।

सबसे पहले, आप डेटा फ़ाइल को WEKA एक्सप्लोरर में लोड करना सीखेंगे। डेटा को निम्न स्रोतों से लोड किया जा सकता है -

  • स्थानीय फाइल सिस्टम
  • Web
  • Database

इस अध्याय में, हम डेटा लोड करने के सभी तीन विकल्पों को विस्तार से देखेंगे।

स्थानीय फ़ाइल सिस्टम से डेटा लोड हो रहा है

मशीन लर्निंग टैब के तहत, जिसे आपने पिछले पाठ में पढ़ा था, आपको निम्नलिखित तीन बटन मिलेंगे -

  • खुली फाइल …
  • यूआरएल खोलें …
  • DB खोलें ...

पर क्लिक करें Open file... बटन। एक निर्देशिका नेविगेटर विंडो खुलती है जैसा कि निम्नलिखित स्क्रीन में दिखाया गया है -

अब, उस फ़ोल्डर पर नेविगेट करें जहां आपकी डेटा फ़ाइलें संग्रहीत हैं। WEKA स्थापना आपको प्रयोग करने के लिए कई नमूना डेटाबेस के साथ आती है। इनमें उपलब्ध हैंdata WEKA स्थापना का फ़ोल्डर।

सीखने के उद्देश्य के लिए, इस फ़ोल्डर से किसी भी डेटा फ़ाइल का चयन करें। फ़ाइल की सामग्री WEKA पर्यावरण में लोड की जाएगी। हम बहुत जल्द ही इस लोड किए गए डेटा का निरीक्षण और प्रक्रिया करना सीखेंगे। इससे पहले, आइए हम देखें कि वेब से डेटा फ़ाइल को कैसे लोड किया जाए।

वेब से डेटा लोड हो रहा है

एक बार जब आप पर क्लिक करें Open URL … बटन, आप एक खिड़की को इस प्रकार देख सकते हैं -

हम एक सार्वजनिक URL से फ़ाइल खोलेंगे पॉपअप बॉक्स में निम्न URL टाइप करें -

https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff

आप किसी अन्य URL को निर्दिष्ट कर सकते हैं जहां आपका डेटा संग्रहीत है। Explorer दूरस्थ साइट से डेटा को उसके वातावरण में लोड करेगा।

DB से डेटा लोड हो रहा है

एक बार जब आप पर क्लिक करें Open DB ... बटन, आप एक विंडो इस प्रकार देख सकते हैं -

अपने डेटाबेस के लिए कनेक्शन स्ट्रिंग सेट करें, डेटा चयन के लिए क्वेरी सेट करें, क्वेरी को संसाधित करें और WEKA में चयनित रिकॉर्ड लोड करें।

WEKA डेटा के लिए बड़ी संख्या में फ़ाइल स्वरूपों का समर्थन करता है। यहां देखें पूरी लिस्ट -

  • arff
  • arff.gz
  • bsi
  • csv
  • dat
  • data
  • json
  • json.gz
  • libsvm
  • m
  • names
  • xrff
  • xrff.gz

फ़ाइलों के प्रकार जो इसे समर्थन करते हैं, स्क्रीन के नीचे ड्रॉप-डाउन सूची बॉक्स में सूचीबद्ध हैं। यह नीचे दिए गए स्क्रीनशॉट में दिखाया गया है।

जैसा कि आप देखेंगे कि यह CSV और JSON सहित कई प्रारूपों का समर्थन करता है। डिफ़ॉल्ट फ़ाइल प्रकार Arff है।

आर्फ़ प्रारूप

एक Arff फ़ाइल में दो खंड होते हैं - हेडर और डेटा।

  • हेडर विशेषता प्रकारों का वर्णन करता है।
  • डेटा अनुभाग में डेटा की अल्पविराम से अलग की गई सूची होती है।

Arff प्रारूप के लिए एक उदाहरण के रूप में, द Weather WEKA नमूना डेटाबेस से भरी गई डेटा फ़ाइल को नीचे दिखाया गया है -

स्क्रीनशॉट से, आप निम्न बिंदुओं का अनुमान लगा सकते हैं -

  • @Relation tag डेटाबेस के नाम को परिभाषित करता है।

  • @Attribute टैग विशेषताओं को परिभाषित करता है।

  • @Data टैग उन डेटा पंक्तियों की सूची शुरू करता है जिनमें प्रत्येक अल्पविराम से अलग किए गए फ़ील्ड हैं।

  • यहाँ दिखाए गए दृष्टिकोण के मामले में विशेषताएँ नाममात्र मान ले सकती हैं -

@attribute outlook (sunny, overcast, rainy)
  • विशेषताएँ इस मामले में वास्तविक मान ले सकती हैं -

@attribute temperature real
  • आप यहां दिखाए गए अनुसार एक लक्ष्य या एक वर्ग चर खेल भी सेट कर सकते हैं -

@attribute play (yes, no)
  • लक्ष्य दो नाममात्र मानों को हाँ या नहीं मानता है।

अन्य प्रारूप

एक्सप्लोरर पहले बताए गए किसी भी प्रारूप में डेटा लोड कर सकता है। चूंकि WEKA में arff पसंदीदा प्रारूप है, आप किसी भी प्रारूप से डेटा लोड कर सकते हैं और बाद में उपयोग के लिए इसे arff प्रारूप में सहेज सकते हैं। डेटा को प्रीप्रोसेस करने के बाद, बस इसे आगे के विश्लेषण के लिए arff फॉर्मेट में सेव करें।

अब जब आप जान गए हैं कि WEKA में डेटा को कैसे लोड करना है, तो अगले अध्याय में, आप सीखेंगे कि डेटा को प्रीप्रोसेस कैसे करें।

फ़ील्ड से एकत्र किए गए डेटा में कई अवांछित चीजें होती हैं जो गलत विश्लेषण की ओर ले जाती हैं। उदाहरण के लिए, डेटा में अशक्त फ़ील्ड हो सकते हैं, इसमें ऐसे कॉलम हो सकते हैं जो वर्तमान विश्लेषण के लिए अप्रासंगिक हैं, और इसी तरह। इस प्रकार, डेटा को आपके द्वारा चाहा जाने वाले विश्लेषण के प्रकारों की आवश्यकताओं को पूरा करने के लिए प्रीप्रोसेस किया जाना चाहिए। यह प्रीप्रोसेसिंग मॉड्यूल में किया जाता है।

प्रीप्रोसेसिंग में उपलब्ध सुविधाओं को प्रदर्शित करने के लिए, हम उपयोग करेंगे Weather डेटाबेस जो स्थापना में प्रदान किया गया है।

का उपयोग करते हुए Open file ... के तहत विकल्प Preprocess टैग का चयन करें weather-nominal.arff फ़ाइल।

जब आप फ़ाइल खोलते हैं, तो आपकी स्क्रीन यहां दिखाई गई तरह दिखती है -

यह स्क्रीन हमें लोड किए गए डेटा के बारे में कई बातें बताती है, जिनकी चर्चा इस अध्याय में आगे की गई है।

डेटा को समझना

आइए हम पहले हाइलाइट किए गए को देखें Current relationउप विंडो। यह उस डेटाबेस का नाम दिखाता है जो वर्तमान में लोड है। आप इस उप विंडो से दो बिंदुओं का अनुमान लगा सकते हैं -

  • 14 उदाहरण हैं - तालिका में पंक्तियों की संख्या।

  • तालिका में 5 विशेषताएँ हैं - फ़ील्ड, जिनकी चर्चा आगामी अनुभागों में की गई है।

बाईं ओर, सूचना दें Attributes उप विंडो जो डेटाबेस में विभिन्न क्षेत्रों को प्रदर्शित करती है।

weatherडेटाबेस में पाँच क्षेत्र शामिल हैं - आउटलुक, तापमान, आर्द्रता, हवादार और प्ले। जब आप उस पर क्लिक करके इस सूची में से एक विशेषता का चयन करते हैं, तो विशेषता पर आगे का विवरण स्वयं दाहिने हाथ की ओर प्रदर्शित होता है।

पहले तापमान विशेषता का चयन करें। जब आप उस पर क्लिक करते हैं, तो आपको निम्न स्क्रीन दिखाई देगी -

में Selected Attribute सबविंडो, आप निम्नलिखित देख सकते हैं -

  • नाम और विशेषता का प्रकार प्रदर्शित किया जाता है।

  • के लिए प्रकार temperature विशेषता है Nominal

  • की संख्या Missing मान शून्य है।

  • तीन विशिष्ट मूल्य हैं जिनमें कोई अद्वितीय मूल्य नहीं है।

  • इस जानकारी के नीचे दी गई तालिका इस क्षेत्र के लिए गर्म, हल्के और ठंडे नाममात्र के मूल्यों को दर्शाती है।

  • यह प्रत्येक नाममात्र मूल्य के प्रतिशत के संदर्भ में गिनती और वजन को भी दर्शाता है।

खिड़की के नीचे, आप का दृश्य प्रतिनिधित्व देखते हैं class मान।

यदि आप पर क्लिक करते हैं Visualize All बटन, आप एक ही विंडो में सभी विशेषताओं को देखने में सक्षम होंगे जैसा कि यहां दिखाया गया है -

विशेषताएँ निकालना

कई बार, मॉडल निर्माण के लिए आप जो डेटा उपयोग करना चाहते हैं वह कई अप्रासंगिक क्षेत्रों के साथ आता है। उदाहरण के लिए, ग्राहक डेटाबेस में उसका मोबाइल नंबर हो सकता है जो उसकी क्रेडिट रेटिंग का विश्लेषण करने में प्रासंगिक है।

विशेषता को हटाने के लिए उन्हें चुनें और पर क्लिक करें Remove सबसे नीचे बटन।

चयनित विशेषताओं को डेटाबेस से हटा दिया जाएगा। डेटा को पूरी तरह से प्रीप्रोसेस करने के बाद, आप इसे मॉडल बिल्डिंग के लिए सहेज सकते हैं।

इसके बाद, आप इस डेटा पर फ़िल्टर लागू करके डेटा को प्रीप्रोज़ करना सीखेंगे।

फ़िल्टर लागू करना

मशीन लर्निंग तकनीकों में से कुछ जैसे एसोसिएशन रूल माइनिंग में श्रेणीबद्ध डेटा की आवश्यकता होती है। फ़िल्टर के उपयोग को समझने के लिए, हम उपयोग करेंगेweather-numeric.arff डेटाबेस जिसमें दो शामिल हैं numeric विशेषताएँ - temperature तथा humidity

हम इन्हें रूपांतरित करेंगे nominalहमारे कच्चे डेटा पर एक फ़िल्टर लगाने से। पर क्लिक करेंChoose में बटन Filter सबविंडो और निम्नलिखित फिल्टर का चयन करें -

weka→filters→supervised→attribute→Discretize

पर क्लिक करें Apply बटन और जांच temperature और / या humidityविशेषता। आप देखेंगे कि ये संख्यात्मक से नाममात्र प्रकारों में बदल गए हैं।

आइए अब एक और फिल्टर देखें। मान लीजिए कि आप निर्णय लेने के लिए सर्वोत्तम विशेषताओं का चयन करना चाहते हैंplay। निम्नलिखित फिल्टर का चयन करें और लागू करें -

weka→filters→supervised→attribute→AttributeSelection

आप देखेंगे कि यह डेटाबेस से तापमान और आर्द्रता विशेषताओं को हटा देता है।

अपने डेटा के प्रीप्रोसेसिंग से संतुष्ट होने के बाद, क्लिक करके डेटा को सेव करें Save... बटन। आप मॉडल बिल्डिंग के लिए इस सहेजे गए फ़ाइल का उपयोग करेंगे।

अगले अध्याय में, हम कई पूर्वनिर्धारित एमएल एल्गोरिदम का उपयोग करके मॉडल बिल्डिंग का पता लगाएंगे।

कई मशीन लर्निंग एप्लिकेशन संबंधित वर्गीकरण हैं। उदाहरण के लिए, आप एक ट्यूमर को घातक या सौम्य के रूप में वर्गीकृत करना पसंद कर सकते हैं। आप यह तय करना पसंद कर सकते हैं कि मौसम की स्थिति के आधार पर बाहर का खेल खेलना है या नहीं। आमतौर पर, यह निर्णय मौसम की कई विशेषताओं / स्थितियों पर निर्भर है। इसलिए आप अपने खेलने या न खेलने के निर्णय के लिए ट्री क्लासिफायर का उपयोग करना पसंद कर सकते हैं।

इस अध्याय में, हम सीखेंगे कि मौसम के आंकड़ों पर इस तरह के ट्री क्लासिफायर का निर्माण कैसे किया जाए ताकि खेल की स्थिति तय की जा सके।

परीक्षण डेटा सेट करना

हम पिछले पाठ से पूर्वनिर्मित मौसम डेटा फ़ाइल का उपयोग करेंगे। सहेजी गई फ़ाइल का उपयोग करके खोलेंOpen file ... के तहत विकल्प Preprocess टैब, पर क्लिक करें Classify टैब, और आपको निम्न स्क्रीन दिखाई देगी -

उपलब्ध क्लासिफायर के बारे में जानने से पहले, आइए हम टेस्ट विकल्पों की जांच करें। आप नीचे सूचीबद्ध चार परीक्षण विकल्प देखेंगे -

  • प्रशिक्षण सेट
  • पूरक परीक्षण सेट
  • Cross-validation
  • प्रतिशत विभाजन

जब तक आपके पास अपना स्वयं का प्रशिक्षण सेट या ग्राहक आपूर्ति परीक्षण सेट नहीं होता है, तब तक आप क्रॉस-सत्यापन या प्रतिशत विभाजन विकल्पों का उपयोग करेंगे। क्रॉस-मान्यता के तहत, आप सिलवटों की संख्या निर्धारित कर सकते हैं जिसमें प्रशिक्षण के प्रत्येक पुनरावृत्ति के दौरान पूरे डेटा को विभाजित और उपयोग किया जाएगा। प्रतिशत विभाजन में, आप सेट विभाजन प्रतिशत का उपयोग करके प्रशिक्षण और परीक्षण के बीच डेटा को विभाजित करेंगे।

अब, डिफ़ॉल्ट रखें play आउटपुट क्लास के लिए विकल्प -

इसके बाद, आप क्लासिफायर का चयन करेंगे।

क्लासिफायर का चयन करना

चुनें बटन पर क्लिक करें और निम्न वर्गीकरण का चयन करें -

weka→classifiers>trees>J48

यह नीचे स्क्रीनशॉट में दिखाया गया है -

पर क्लिक करें Startवर्गीकरण प्रक्रिया शुरू करने के लिए बटन। थोड़ी देर के बाद, वर्गीकरण परिणाम आपकी स्क्रीन पर प्रस्तुत किया जाएगा जैसा कि यहाँ दिखाया गया है -

आइए स्क्रीन के दाईं ओर दिखाए गए आउटपुट की जांच करें।

यह कहता है कि पेड़ का आकार ६ है। आप बहुत जल्द पेड़ का दृश्य प्रतिनिधित्व देखेंगे। सारांश में, यह कहता है कि सही रूप से वर्गीकृत उदाहरण 2 और गलत तरीके से वर्गीकृत उदाहरण हैं। यह भी कहता है कि सापेक्ष पूर्ण त्रुटि 110% है। यह कन्फ्यूजन मैट्रिक्स भी दिखाता है। इन परिणामों के विश्लेषण में जाना इस ट्यूटोरियल के दायरे से परे है। हालांकि, आप इन परिणामों से आसानी से पता लगा सकते हैं कि वर्गीकरण स्वीकार्य नहीं है और आपको अपनी विशेषताओं के चयन को परिष्कृत करने, मॉडल के पुनर्निर्माण और मॉडल की सटीकता से संतुष्ट होने तक विश्लेषण के लिए अधिक डेटा की आवश्यकता होगी। वैसे भी, WEKA क्या है। यह आपको अपने विचारों को जल्दी से परखने की अनुमति देता है।

परिणाम देखें

परिणामों के दृश्य प्रतिनिधित्व को देखने के लिए, परिणाम पर राइट क्लिक करें Result listडिब्बा। यहां दिखाए गए अनुसार स्क्रीन पर कई विकल्प दिखाई देंगे -

चुनते हैं Visualize tree नीचे दिए गए स्क्रीनशॉट में देखे गए ट्रैवर्सल ट्री का दृश्य प्रतिनिधित्व प्राप्त करने के लिए -

चुनना Visualize classifier errors यहाँ दिखाए अनुसार वर्गीकरण के परिणामों की साजिश करेंगे -

cross जबकि एक सही ढंग से वर्गीकृत उदाहरण का प्रतिनिधित्व करता है squaresगलत तरीके से वर्गीकृत उदाहरणों का प्रतिनिधित्व करता है। भूखंड के निचले बाएँ कोने में आप एक देखते हैंcross यह इंगित करता है कि अगर outlook धूप है तो playखेल। तो यह एक सही ढंग से वर्गीकृत उदाहरण है। उदाहरणों का पता लगाने के लिए, आप इसमें फिसलने से कुछ घबराहट का परिचय दे सकते हैंjitter स्लाइड पट्टी।

वर्तमान कथानक है outlook बनाम play। ये स्क्रीन के शीर्ष पर दो ड्रॉप डाउन सूची बॉक्स द्वारा दर्शाए गए हैं।

अब, इन बॉक्सों में से प्रत्येक में एक अलग चयन का प्रयास करें और ध्यान दें कि एक्सएंडवाई एक्सिस कैसे बदलता है। भूखंड के दाहिनी ओर क्षैतिज पट्टियों का उपयोग करके इसे प्राप्त किया जा सकता है। प्रत्येक पट्टी एक विशेषता का प्रतिनिधित्व करती है। पट्टी पर बाईं क्लिक एक्स-अक्ष पर चयनित विशेषता को सेट करती है जबकि एक राइट क्लिक इसे वाई-अक्ष पर सेट करेगी।

आपके गहन विश्लेषण के लिए कई अन्य भूखंड दिए गए हैं। उन्हें अपने मॉडल को ठीक करने के लिए विवेकपूर्ण तरीके से उपयोग करें। ऐसा ही एक प्लॉटCost/Benefit analysis आपके त्वरित संदर्भ के लिए नीचे दिखाया गया है।

इन चार्ट में विश्लेषण की व्याख्या करना इस ट्यूटोरियल के दायरे से परे है। पाठक को मशीन लर्निंग एल्गोरिदम के विश्लेषण के अपने ज्ञान को ब्रश करने के लिए प्रोत्साहित किया जाता है।

अगले अध्याय में, हम मशीन लर्निंग एल्गोरिदम के अगले सेट को सीखेंगे, जो कि क्लस्टरिंग है।

एक क्लस्टरिंग एल्गोरिथ्म पूरे डेटासेट में समान उदाहरणों के समूह पाता है। WEKA कई क्लस्टरिंग एल्गोरिदम जैसे EM, FilteredClusterer, HierarchicalClusterer, SimpleKMeans इत्यादि का समर्थन करता है। WEKA क्षमताओं का पूरी तरह से दोहन करने के लिए आपको इन एल्गोरिदम को पूरी तरह से समझना चाहिए।

वर्गीकरण के मामले में, WEKA आपको ज्ञात गुच्छों को ग्राफिक रूप से देखने की अनुमति देता है। क्लस्टरिंग प्रदर्शित करने के लिए, हम प्रदान किए गए आईरिस डेटाबेस का उपयोग करेंगे। डेटा सेट में 50 उदाहरणों के तीन वर्ग होते हैं। प्रत्येक वर्ग एक प्रकार के आईरिस पौधे को संदर्भित करता है।

डेटा लोड हो रहा है

WEKA एक्सप्लोरर में सेलेक्ट करें Preprocessटैब। पर क्लिक करेंOpen file ... विकल्प और चुनें iris.arffफ़ाइल चयन संवाद में फ़ाइल। जब आप डेटा लोड करते हैं, तो स्क्रीन जैसा दिखता है नीचे दिखाया गया है -

आप देख सकते हैं कि 150 उदाहरण और 5 विशेषताएँ हैं। विशेषताओं के नाम के रूप में सूचीबद्ध हैंsepallength, sepalwidth, petallength, petalwidth तथा class। पहले चार गुण संख्यात्मक प्रकार के होते हैं जबकि वर्ग एक नाममात्र प्रकार होता है जिसमें 3 अलग-अलग मान होते हैं। डेटाबेस की विशेषताओं को समझने के लिए प्रत्येक विशेषता की जांच करें। हम इस डेटा पर कोई प्रीप्रोसेसिंग नहीं करेंगे और सीधे मॉडल निर्माण के लिए आगे बढ़ेंगे।

क्लस्टरिंग

पर क्लिक करें Clusterहमारे लोड किए गए डेटा के क्लस्टरिंग एल्गोरिदम को लागू करने के लिए TAB। पर क्लिक करेंChooseबटन। आप निम्न स्क्रीन देखेंगे -

अब, चयन करें EMक्लस्टरिंग एल्गोरिथ्म के रूप में। मेंCluster mode उप विंडो, का चयन करें Classes to clusters evaluation नीचे स्क्रीनशॉट में दिखाया गया विकल्प -

पर क्लिक करें Startडेटा संसाधित करने के लिए बटन। थोड़ी देर के बाद, परिणाम स्क्रीन पर प्रस्तुत किए जाएंगे।

इसके बाद, हम परिणामों का अध्ययन करते हैं।

आउटपुट की जांच

डेटा प्रोसेसिंग का आउटपुट नीचे स्क्रीन में दिखाया गया है -

आउटपुट स्क्रीन से, आप देख सकते हैं कि -

  • डेटाबेस में 5 क्लस्टर इंस्टेंसेस का पता चला है।

  • Cluster 0 सेटोसा का प्रतिनिधित्व करता है, Cluster 1 वर्जिनिका का प्रतिनिधित्व करता है, Cluster 2 छंद का प्रतिनिधित्व करता है, जबकि अंतिम दो समूहों में उनके साथ कोई वर्ग जुड़ा नहीं है।

यदि आप आउटपुट विंडो को स्क्रॉल करते हैं, तो आपको कुछ आँकड़े भी दिखाई देंगे, जो विभिन्न पहचाने गए समूहों में प्रत्येक विशेषता के लिए माध्य और मानक विचलन देते हैं। यह नीचे दिए गए स्क्रीनशॉट में दिखाया गया है -

अगला, हम समूहों के दृश्य प्रतिनिधित्व को देखेंगे।

दृश्य क्लस्टर्स

समूहों की कल्पना करने के लिए, दाईं ओर क्लिक करें EM में परिणाम Result list। आपको निम्न विकल्प दिखाई देंगे -

चुनते हैं Visualize cluster assignments। आप निम्न आउटपुट देखेंगे -

वर्गीकरण के मामले में, आप सही और गलत तरीके से पहचाने गए उदाहरणों के बीच अंतर को नोटिस करेंगे। आप परिणामों का विश्लेषण करने के लिए एक्स और वाई कुल्हाड़ियों को बदलकर खेल सकते हैं। सही पहचाने गए उदाहरणों की एकाग्रता का पता लगाने के लिए आप वर्गीकरण के मामले में घबराने का उपयोग कर सकते हैं। विज़ुअलाइज़ेशन भूखंड में संचालन उसी के समान है जिसे आपने वर्गीकरण के मामले में अध्ययन किया था।

पदानुक्रम क्लस्टर लागू करना

WEKA की शक्ति का प्रदर्शन करने के लिए, आइए अब एक और क्लस्टरिंग एल्गोरिथ्म के अनुप्रयोग पर ध्यान दें। WEKA एक्सप्लोरर में, का चयन करेंHierarchicalClusterer अपने एमएल एल्गोरिथ्म के रूप में नीचे दिखाए गए स्क्रीनशॉट में दिखाया गया है -

चुनना Cluster mode के लिए चयन Classes to cluster evaluation, और पर क्लिक करें Startबटन। आप निम्न आउटपुट देखेंगे -

ध्यान दें कि में Result list, दो परिणाम सूचीबद्ध हैं: पहला एक EM परिणाम है और दूसरा वर्तमान Hierarchical है। इसी तरह, आप एक ही डाटासेट के लिए कई एमएल एल्गोरिदम लागू कर सकते हैं और जल्दी से उनके परिणामों की तुलना कर सकते हैं।

यदि आप इस एल्गोरिथम द्वारा निर्मित पेड़ की जांच करते हैं, तो आपको निम्न आउटपुट दिखाई देंगे -

अगले अध्याय में, आप अध्ययन करेंगे Associate एमएल एल्गोरिदम का प्रकार।

यह देखा गया कि जो लोग बीयर खरीदते हैं वे उसी समय डायपर भी खरीदते हैं। यही कारण है कि बीयर और डायपर को एक साथ खरीदने के लिए एक संघ है। हालांकि यह अच्छी तरह से आश्वस्त नहीं लगता है, यह एसोसिएशन नियम सुपरमार्केट के विशाल डेटाबेस से खनन किया गया था। इसी तरह, पीनट बटर और ब्रेड के बीच एक जुड़ाव पाया जा सकता है।

सुपरमार्केट के लिए डायपर को स्टॉक करने के लिए ऐसे संघों को खोजना महत्वपूर्ण हो जाता है ताकि ग्राहक सुपरमार्केट के लिए बढ़ी हुई बिक्री के परिणामस्वरूप दोनों वस्तुओं का आसानी से पता लगा सकें।

Aprioriएल्गोरिथ्म एमएल में एक ऐसा एल्गोरिथ्म है जो संभावित संघों का पता लगाता है और एसोसिएशन के नियम बनाता है। WEKA Apriori एल्गोरिथ्म के कार्यान्वयन प्रदान करता है। आप इन नियमों की गणना करते समय न्यूनतम समर्थन और एक स्वीकार्य आत्मविश्वास स्तर को परिभाषित कर सकते हैं। आप आवेदन करेंगेApriori के लिए एल्गोरिथ्म supermarket WEKA स्थापना में प्रदान किया गया डेटा।

डेटा लोड हो रहा है

WEKA एक्सप्लोरर में, खोलें Preprocess टैब, पर क्लिक करें Open file ... बटन और चुनें supermarket.arffस्थापना फ़ोल्डर से डेटाबेस। डेटा लोड होने के बाद आपको निम्न स्क्रीन दिखाई देगी -

डेटाबेस में 4627 उदाहरण और 217 विशेषताएँ हैं। आप आसानी से समझ सकते हैं कि इतनी बड़ी संख्या में विशेषताओं का पता लगाना कितना मुश्किल होगा। सौभाग्य से, यह कार्य Apriori एल्गोरिथ्म की मदद से स्वचालित है।

Associator

पर क्लिक करें Associate TAB और पर क्लिक करें Chooseबटन। को चुनिएApriori स्क्रीनशॉट में दिखाया गया एसोसिएशन -

एपोरी एल्गोरिदम के मापदंडों को निर्धारित करने के लिए, इसके नाम पर क्लिक करें, एक विंडो पॉप अप होगी जैसा कि नीचे दिखाया गया है जो आपको पैरामीटर सेट करने की अनुमति देता है -

पैरामीटर सेट करने के बाद, क्लिक करें Startबटन। थोड़ी देर बाद आपको परिणाम दिखाई देगा जैसा कि नीचे स्क्रीनशॉट में दिखाया गया है -

सबसे नीचे, आपको संघों के सबसे अच्छे नियमों का पता चलेगा। इससे सुपरमार्केट को अपने उत्पादों को उचित अलमारियों में स्टॉक करने में मदद मिलेगी।

जब एक डेटाबेस में बड़ी संख्या में विशेषताएँ होती हैं, तो कई विशेषताएं होंगी जो उस विश्लेषण में महत्वपूर्ण नहीं बनती हैं जो आप वर्तमान में मांग रहे हैं। इस प्रकार, एक अच्छी मशीन लर्निंग मॉडल को विकसित करने में डेटासेट से अवांछित विशेषताओं को हटाना एक महत्वपूर्ण कार्य बन जाता है।

आप संपूर्ण डेटासेट को नेत्रहीन रूप से देख सकते हैं और अप्रासंगिक विशेषताओं पर निर्णय ले सकते हैं। यह डेटाबेस केस के लिए बड़ी संख्या में विशेषताओं वाला एक बड़ा काम हो सकता है जैसे सुपरमार्केट केस जिसे आपने पहले पाठ में देखा था। सौभाग्य से, WEKA सुविधा चयन के लिए एक स्वचालित उपकरण प्रदान करता है।

यह अध्याय बड़ी संख्या में विशेषताओं वाले डेटाबेस पर इस सुविधा को प्रदर्शित करता है।

डेटा लोड हो रहा है

में Preprocess WEKA एक्सप्लोरर का टैग, का चयन करें labor.arffसिस्टम में लोड करने के लिए फ़ाइल। जब आप डेटा लोड करते हैं, तो आपको निम्न स्क्रीन दिखाई देगी -

ध्यान दें कि 17 विशेषताएँ हैं। हमारा कार्य हमारे विश्लेषण के लिए अप्रासंगिक कुछ विशेषताओं को समाप्त करके एक कम डेटासेट बनाना है।

सुविधाएँ निकालना

पर क्लिक करें Select attributesTAB. आप निम्न स्क्रीन देखेंगे -

के नीचे Attribute Evaluator तथा Search Method, आपको कई विकल्प मिलेंगे। हम यहां केवल डिफॉल्ट का उपयोग करेंगे। मेंAttribute Selection Mode, पूर्ण प्रशिक्षण सेट विकल्प का उपयोग करें।

डेटासेट को संसाधित करने के लिए प्रारंभ बटन पर क्लिक करें। आप निम्न आउटपुट देखेंगे -

परिणाम विंडो के निचले भाग में, आपको सूची मिलेगी Selectedजिम्मेदार बताते हैं। दृश्य प्रतिनिधित्व प्राप्त करने के लिए, परिणाम पर राइट क्लिक करेंResult सूची।

आउटपुट को निम्न स्क्रीनशॉट में दिखाया गया है -

किसी भी वर्ग पर क्लिक करने से आपको अपने आगे के विश्लेषण के लिए डेटा प्लॉट मिलेगा। एक विशिष्ट डेटा प्लॉट नीचे दिखाया गया है -

यह उन लोगों के समान है जिन्हें हमने पहले के अध्यायों में देखा है। परिणामों का विश्लेषण करने के लिए उपलब्ध विभिन्न विकल्पों के साथ खेलें।

आगे क्या होगा?

आपने अभी तक तेजी से विकसित हो रहे मशीन लर्निंग मॉडल में WEKA की शक्ति देखी है। हमने जो प्रयोग किया वह एक ग्राफिकल टूल हैExplorerइन मॉडलों को विकसित करने के लिए। WEKA एक कमांड लाइन इंटरफ़ेस भी प्रदान करता है जो आपको एक्सप्लोरर में प्रदान की गई तुलना में अधिक शक्ति प्रदान करता है।

क्लिक कर रहा है Simple CLI जी में बटनUI Chooser एप्लिकेशन इस कमांड लाइन इंटरफ़ेस को शुरू करता है जो नीचे स्क्रीनशॉट में दिखाया गया है -

नीचे दिए गए इनपुट बॉक्स में अपने कमांड टाइप करें। आप वह सब कर पाएंगे जो आपने अब तक एक्सप्लोरर में किया है। अधिक जानकारी के लिए WEKA प्रलेखन (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) देखें।

अंत में, WEKA जावा में विकसित किया गया है और इसके एपीआई के लिए एक इंटरफ़ेस प्रदान करता है। इसलिए यदि आप एक जावा डेवलपर हैं और अपनी खुद की जावा परियोजनाओं में WEKA एमएल कार्यान्वयन को शामिल करने के लिए उत्सुक हैं, तो आप इतनी आसानी से कर सकते हैं।

निष्कर्ष

WEKA मशीन लर्निंग मॉडल विकसित करने के लिए एक शक्तिशाली उपकरण है। यह कई सबसे व्यापक रूप से उपयोग किए जाने वाले एमएल एल्गोरिदम का कार्यान्वयन प्रदान करता है। इन एल्गोरिदम को आपके डेटासेट में लागू करने से पहले, यह आपको डेटा को प्रीप्रोसेस करने की भी अनुमति देता है। समर्थित एल्गोरिथम के प्रकार वर्गीकृत, क्लस्टर, एसोसिएट और चयन विशेषताओं के अंतर्गत वर्गीकृत किए गए हैं। प्रसंस्करण के विभिन्न चरणों में परिणाम एक सुंदर और शक्तिशाली दृश्य प्रतिनिधित्व के साथ कल्पना की जा सकती है। इससे डेटा साइंटिस्ट के लिए अपने डेटासेट पर विभिन्न मशीन लर्निंग तकनीकों को जल्दी से लागू करना, परिणामों की तुलना करना और अंतिम उपयोग के लिए सबसे अच्छा मॉडल बनाना आसान हो जाता है।