समय - त्वरित गाइड

विकासशील मशीन लर्निंग मॉडल को हमेशा अपनी गुप्त प्रकृति के कारण बहुत चुनौतीपूर्ण माना जाता है। आमतौर पर, मशीन सीखने के अनुप्रयोगों को विकसित करने के लिए, आपको कमांड-संचालित विकास में विशेषज्ञता के साथ एक अच्छा डेवलपर होना चाहिए। KNIME की शुरूआत ने मशीन लर्निंग मॉडल के विकास को एक आम आदमी के दायरे में लाया है।

KNIME पूरे विकास के लिए एक ग्राफिकल इंटरफ़ेस (एक उपयोगकर्ता के अनुकूल जीयूआई) प्रदान करता है। KNIME में, आपको बस इसके रिपॉजिटरी में दिए गए विभिन्न पूर्वनिर्धारित नोड्स के बीच वर्कफ़्लो को परिभाषित करना होगा। KNIME कई पूर्वनिर्धारित घटक प्रदान करता है जिन्हें विभिन्न कार्यों के लिए नोड्स कहा जाता है जैसे डेटा पढ़ना, विभिन्न एमएल एल्गोरिदम लागू करना और विभिन्न स्वरूपों में डेटा की कल्पना करना। इस प्रकार, KNIME के ​​साथ काम करने के लिए, कोई प्रोग्रामिंग ज्ञान की आवश्यकता नहीं है। क्या यह रोमांचक नहीं है?

इस ट्यूटोरियल के आगामी अध्याय आपको सिखाएंगे कि कैसे कई अच्छी तरह से परीक्षण किए गए एमएल एल्गोरिदम का उपयोग करके डेटा विश्लेषण में महारत हासिल की जाए।

KNIME Analytics प्लेटफ़ॉर्म Windows, Linux और MacOS के लिए उपलब्ध है। इस अध्याय में, मैक पर प्लेटफ़ॉर्म स्थापित करने के चरणों पर ध्यान दें। यदि आप विंडोज या लिनक्स का उपयोग करते हैं, तो KNIME डाउनलोड पृष्ठ पर दिए गए इंस्टॉलेशन निर्देशों का पालन करें। सभी तीन प्लेटफार्मों के लिए बाइनरी इंस्टॉलेशन KNIME के ​​पेज पर उपलब्ध है ।

मैक इंस्टालेशन

KNIME आधिकारिक साइट से बाइनरी इंस्टॉलेशन डाउनलोड करें। डाउनलोड पर डबल क्लिक करेंdmgस्थापना शुरू करने के लिए फ़ाइल। जब इंस्टॉलेशन पूरा हो जाए, तो यहां दिए गए एप्लिकेशन फ़ोल्डर में KNIME आइकन को खींचें -

KNIME Analytics प्लेटफ़ॉर्म शुरू करने के लिए KNIME आइकन पर डबल-क्लिक करें। प्रारंभ में, आपको अपना कार्य सहेजने के लिए कार्यस्थान फ़ोल्डर सेटअप करने के लिए कहा जाएगा। आपकी स्क्रीन निम्नलिखित की तरह दिखाई देगी -

आप चयनित फ़ोल्डर को डिफ़ॉल्ट के रूप में सेट कर सकते हैं और अगली बार जब आप KNIME लॉन्च करते हैं, तो यह नहीं होगा

फिर से इस संवाद को दिखाएं।

कुछ समय बाद, आपके डेस्कटॉप पर KNIME प्लेटफ़ॉर्म शुरू होगा। यह कार्यक्षेत्र है जहाँ आप अपने विश्लेषिकी कार्य को अंजाम देंगे। आइए अब कार्यक्षेत्र के विभिन्न भागों को देखें।

जब KNIME शुरू होता है, तो आपको निम्न स्क्रीन दिखाई देगी -

जैसा कि स्क्रीनशॉट में चिह्नित किया गया है, कार्यक्षेत्र में कई दृश्य हैं। जो दृश्य हमारे लिए तत्काल उपयोग के हैं वे स्क्रीनशॉट में चिह्नित हैं और नीचे सूचीबद्ध हैं -

  • Workspace

  • Outline

  • नोड्स रिपॉजिटरी

  • KNIME एक्सप्लोरर

  • Console

  • Description

जैसा कि हम इस अध्याय में आगे बढ़ते हैं, आइए हम इन विचारों को विस्तार से जानें।

कार्यक्षेत्र देखें

हमारे लिए सबसे महत्वपूर्ण दृष्टिकोण है Workspaceराय। यह वह जगह है जहाँ आप अपने मशीन लर्निंग मॉडल का निर्माण करेंगे। कार्यक्षेत्र दृश्य नीचे स्क्रीनशॉट में हाइलाइट किया गया है -

स्क्रीनशॉट एक खुला कार्यक्षेत्र दिखाता है। आप जल्द ही सीखेंगे कि मौजूदा कार्यक्षेत्र कैसे खोला जाए।

प्रत्येक कार्यक्षेत्र में एक या अधिक नोड होते हैं। आप इन नोड्स के महत्व को बाद में ट्यूटोरियल में सीखेंगे। नोड्स तीरों का उपयोग करके जुड़े हुए हैं। आमतौर पर, प्रोग्राम प्रवाह को बाएं से दाएं परिभाषित किया जाता है, हालांकि इसकी आवश्यकता नहीं है। आप कार्यक्षेत्र में प्रत्येक नोड को स्वतंत्र रूप से स्थानांतरित कर सकते हैं। नोड्स के बीच संबंध बनाए रखने के लिए दोनों के बीच जुड़ने वाली लाइनें उचित रूप से चलेंगी। आप किसी भी समय नोड्स के बीच कनेक्शन जोड़ / हटा सकते हैं। प्रत्येक नोड के लिए एक छोटा विवरण वैकल्पिक रूप से जोड़ा जा सकता है।

आउटलाइन व्यू

कार्यक्षेत्र दृश्य आपको एक बार में पूरे वर्कफ़्लो को दिखाने में सक्षम नहीं हो सकता है। यही कारण है कि, रूपरेखा दृश्य प्रदान की जाती है।

आउटलाइन दृश्य पूरे कार्यक्षेत्र का लघु दृश्य दिखाता है। इस दृश्य के अंदर एक ज़ूम विंडो है जिसे आप वर्कफ़्लो के विभिन्न भागों को देखने के लिए स्लाइड कर सकते हैंWorkspace राय।

नोड रिपोजिटरी

यह कार्यक्षेत्र में अगला महत्वपूर्ण दृश्य है। नोड रिपॉजिटरी आपके विश्लेषण के लिए उपलब्ध विभिन्न नोड्स को सूचीबद्ध करता है। संपूर्ण रिपॉजिटरी को नोड कार्यों के आधार पर अच्छी तरह से वर्गीकृत किया गया है। आपको श्रेणियां मिलेंगी जैसे कि -

  • IO

  • Views

  • Analytics

प्रत्येक श्रेणी के अंतर्गत आपको कई विकल्प मिलेंगे। आपके पास वहां क्या है, यह देखने के लिए प्रत्येक श्रेणी दृश्य का विस्तार करें। के नीचेIO श्रेणी, आपको विभिन्न फ़ाइल स्वरूपों में अपने डेटा को पढ़ने के लिए नोड्स मिलेंगे, जैसे कि ARFF, CSV, PMML, XLS, आदि।

आपके इनपुट स्रोत डेटा प्रारूप के आधार पर, आप अपने डेटासेट को पढ़ने के लिए उपयुक्त नोड का चयन करेंगे।

इस समय तक, शायद आप एक नोड के उद्देश्य को समझ गए हैं। एक नोड एक निश्चित प्रकार की कार्यक्षमता को परिभाषित करता है जिसे आप नेत्रहीन अपने वर्कफ़्लो में शामिल कर सकते हैं।

एनालिटिक्स नोड विभिन्न मशीन लर्निंग एल्गोरिदम को परिभाषित करता है, जैसे कि बेयस, क्लस्टरिंग, डिसीजन ट्री, एन्सेम्बल लर्निंग, और इसी तरह।

इन नोड्स में विभिन्न एमएल एल्गोरिदम का कार्यान्वयन प्रदान किया जाता है। अपने विश्लेषिकी में किसी भी एल्गोरिथ्म को लागू करने के लिए, बस रिपॉजिटरी से वांछित नोड उठाएं और इसे अपने कार्यक्षेत्र में जोड़ें। इस एमएल नोड के इनपुट के लिए डेटा रीडर नोड के आउटपुट को कनेक्ट करें और आपका वर्कफ़्लो बनाया गया है।

हम आपको रिपॉजिटरी में उपलब्ध विभिन्न नोड्स का पता लगाने का सुझाव देते हैं।

KNIME एक्सप्लोरर

कार्यक्षेत्र में अगला महत्वपूर्ण दृश्य है Explorer नीचे स्क्रीनशॉट में दिखाया गया है -

पहले दो श्रेणियां KNIME सर्वर पर परिभाषित कार्यक्षेत्रों को सूचीबद्ध करती हैं। तीसरे विकल्प LOCAL का उपयोग उन सभी कार्यक्षेत्रों को संग्रहीत करने के लिए किया जाता है जो आप अपने स्थानीय मशीन पर बनाते हैं। विभिन्न पूर्वनिर्धारित कार्यक्षेत्रों को देखने के लिए इन टैब का विस्तार करने का प्रयास करें। विशेष रूप से, EXAMPLES टैब का विस्तार करें।

KNIME आपको प्लेटफ़ॉर्म के साथ आरंभ करने के लिए कई उदाहरण प्रदान करता है। अगले अध्याय में, आप खुद को मंच से परिचित कराने के लिए इनमें से एक उदाहरण का उपयोग करेंगे।

सांत्वना दृश्य

जैसा कि नाम से संकेत मिलता है, Console व्यू आपके वर्कफ़्लो को निष्पादित करते समय विभिन्न कंसोल संदेशों का एक दृश्य प्रदान करता है।

Console व्यू वर्कफ़्लो का निदान करने और विश्लेषिकी परिणामों की जांच करने में उपयोगी है।

विवरण देखें

अंतिम महत्वपूर्ण दृष्टिकोण जो हमारे लिए तत्काल प्रासंगिकता का है Descriptionराय। यह दृश्य कार्यक्षेत्र में चयनित आइटम का विवरण प्रदान करता है। नीचे स्क्रीनशॉट में एक विशिष्ट दृश्य दिखाया गया है -

उपरोक्त दृश्य ए का वर्णन दर्शाता है File Readerनोड। जब आप सेलेक्ट करेंगेFile Readerअपने कार्यक्षेत्र में नोड, आप इस दृश्य में इसका विवरण देखेंगे। किसी भी अन्य नोड पर क्लिक करने पर चयनित नोड का विवरण दिखाई देता है। इस प्रकार, यह दृश्य सीखने के प्रारंभिक चरणों में बहुत उपयोगी हो जाता है जब आप कार्यक्षेत्र और / या नोड्स रिपॉजिटरी में विभिन्न नोड्स के उद्देश्य को ठीक से नहीं जानते हैं।

उपकरण पट्टी

ऊपर वर्णित विचारों के अलावा, कार्यक्षेत्र में टूलबार जैसे अन्य विचार हैं। टूलबार में विभिन्न आइकन होते हैं जो त्वरित कार्रवाई की सुविधा देते हैं। आइकन संदर्भ के आधार पर सक्षम / अक्षम हैं। आप देख सकते हैं कि प्रत्येक आइकन उस पर माउस मँडरा कर प्रदर्शन करता है। निम्न स्क्रीन द्वारा की गई कार्रवाई को दर्शाता हैConfigure आइकन।

दृश्य सक्षम / निष्क्रिय करना

अब तक आपने जो विभिन्न दृश्य देखे हैं, उन्हें आसानी से चालू / बंद किया जा सकता है। दृश्य में बंद आइकन पर क्लिक करना होगाcloseदृश्य। दृश्य को पुनर्स्थापित करने के लिए, पर जाएंViewमेनू विकल्प और वांछित दृश्य का चयन करें। चयनित दृश्य कार्यक्षेत्र में जोड़ा जाएगा।

अब, जैसा कि आप कार्यक्षेत्र से परिचित हो चुके हैं, मैं आपको दिखाऊंगा कि वर्कफ़्लो कैसे चलाया जाए और इसके द्वारा किए गए विश्लेषणों का अध्ययन करें।

KNIME ने सीखने में आसानी के लिए कई अच्छे वर्कफ़्लोज़ प्रदान किए हैं। इस अध्याय में, हम विभिन्न विशेषताओं और विश्लेषण प्लेटफ़ॉर्म की शक्ति को समझाने के लिए इंस्टॉलेशन में दिए गए वर्कफ़्लोज़ में से एक को चुनेंगे। हम एक के आधार पर एक साधारण वर्गीकरण का उपयोग करेंगेDecision Tree हमारे अध्ययन के लिए।

लोड हो रहा है निर्णय ट्री क्लासिफायर

KNIME एक्सप्लोरर में निम्नलिखित वर्कफ़्लो का पता लगाएं -

LOCAL / Example Workflows / Basic Examples / Building a Simple Classifier

यह आपके त्वरित संदर्भ के लिए नीचे स्क्रीनशॉट में भी दिखाया गया है -

वर्कफ़्लो को खोलने के लिए चयनित आइटम पर डबल क्लिक करें। कार्यक्षेत्र दृश्य देखें। आप कई नोड्स युक्त वर्कफ़्लो देखेंगे। इस वर्कफ़्लो का उद्देश्य यूसीआई मशीन लर्निंग रिपॉजिटरी से लिए गए वयस्क डेटा के लोकतांत्रिक गुणों से आय समूह की भविष्यवाणी करना है। इस ML मॉडल का कार्य 50K से अधिक या कम आय वाले लोगों को विशिष्ट क्षेत्र में वर्गीकृत करना है।

Workspace इसकी रूपरेखा के साथ दृश्य नीचे स्क्रीनशॉट में दिखाया गया है -

कई नोड्स की उपस्थिति को ध्यान से देखें Nodesरिपॉजिटरी और तीरों द्वारा एक वर्कफ़्लो में जुड़ा हुआ है। कनेक्शन इंगित करता है कि एक नोड का आउटपुट अगले नोड के इनपुट को खिलाया जाता है। इससे पहले कि हम वर्कफ़्लो में प्रत्येक नोड की कार्यक्षमता सीखें, पहले हमें पूरे वर्कफ़्लो को निष्पादित करें।

कार्यकारी वर्कफ़्लो

इससे पहले कि हम वर्कफ़्लो के निष्पादन पर ध्यान दें, प्रत्येक नोड की स्थिति रिपोर्ट को समझना महत्वपूर्ण है। वर्कफ़्लो में किसी भी नोड की जांच करें। प्रत्येक नोड के निचले भाग में आपको एक स्थिति संकेतक मिलेगा जिसमें तीन सर्कल होंगे। निर्णय ट्री लर्नर नोड नीचे स्क्रीनशॉट में दिखाया गया है -

स्थिति सूचक लाल है जो दर्शाता है कि इस नोड को अब तक निष्पादित नहीं किया गया है। निष्पादन के दौरान, केंद्र सर्कल जो पीले रंग का होता है, वह प्रकाश होता है। सफल निष्पादन पर, अंतिम चक्र हरा हो जाता है। त्रुटियों के मामले में आपको स्थिति की जानकारी देने के लिए अधिक संकेतक हैं। जब प्रसंस्करण में कोई त्रुटि होती है, तो आप उन्हें जानेंगे।

ध्यान दें कि वर्तमान में सभी नोड्स पर संकेतक लाल संकेत दे रहे हैं कि अब तक कोई नोड निष्पादित नहीं किया गया है। सभी नोड्स को चलाने के लिए, निम्न मेनू आइटम पर क्लिक करें -

Node → Execute All

थोड़ी देर के बाद, आप पाएंगे कि प्रत्येक नोड स्थिति सूचक अब हरे रंग का संकेत देता है कि कोई त्रुटि नहीं है।

अगले अध्याय में, हम वर्कफ़्लो में विभिन्न नोड्स की कार्यक्षमता का पता लगाएंगे।

यदि आप वर्कफ़्लो में नोड्स की जाँच करते हैं, तो आप देख सकते हैं कि इसमें निम्नलिखित शामिल हैं -

  • फ़ाइल रीडर,

  • रंग प्रबंधक

  • Partitioning

  • निर्णय ट्री लर्नर

  • निर्णय ट्री प्रिडिक्टर

  • Score

  • इंटरएक्टिव टेबल

  • स्कैटर प्लॉट

  • Statistics

इनमें आसानी से देखा जा सकता है Outline जैसा कि यहाँ दिखाया गया है -

प्रत्येक नोड वर्कफ़्लो में एक विशिष्ट कार्यक्षमता प्रदान करता है। हम अब वांछित कार्यक्षमता को पूरा करने के लिए इन नोड्स को कॉन्फ़िगर करने का तरीका देखेंगे। कृपया ध्यान दें कि हम केवल उन नोड्स पर चर्चा करेंगे जो वर्कफ़्लो की खोज के वर्तमान संदर्भ में हमारे लिए प्रासंगिक हैं।

फाइल रीडर

फाइल रीडर नोड को नीचे स्क्रीनशॉट में दर्शाया गया है -

विंडो के शीर्ष पर कुछ विवरण है जो वर्कफ़्लो के निर्माता द्वारा प्रदान किया गया है। यह बताता है कि यह नोड वयस्क डेटा सेट पढ़ता है। फ़ाइल का नाम हैadult.csvजैसा कि नोड प्रतीक के नीचे विवरण से देखा गया है। File Reader दो आउटपुट हैं - एक को जाता है Color Manager नोड और अन्य एक को जाता है Statistics नोड।

अगर आप राइट क्लिक करते हैं File Manager, एक पॉपअप मेनू निम्नानुसार दिखाई देगा -

Configureमेनू विकल्प नोड कॉन्फ़िगरेशन के लिए अनुमति देता है। Executeमेनू नोड चलाता है। ध्यान दें कि यदि नोड पहले ही चल चुका है और यदि यह हरे रंग की स्थिति में है, तो यह मेनू अक्षम है। इसके अलावा, की उपस्थिति पर ध्यान देंEdit Note Descriptionमेनू विकल्प। यह आपको अपने नोड के लिए विवरण लिखने की अनुमति देता है।

अब, चयन करें Configure मेनू विकल्प, यह स्क्रीन को स्क्रीन से दिखाता है।

जब आप इस नोड को निष्पादित करते हैं, तो डेटा को मेमोरी में लोड किया जाएगा। संपूर्ण डेटा लोडिंग प्रोग्राम कोड उपयोगकर्ता से छिपा हुआ है। अब आप ऐसे नोड्स की उपयोगिता की सराहना कर सकते हैं - कोई कोडिंग की आवश्यकता नहीं है।

हमारा अगला नोड है Color Manager

रंग प्रबंधक

को चुनिए Color Managerनोड पर क्लिक करके इसके कॉन्फ़िगरेशन में जाएं। एक रंग सेटिंग्स संवाद दिखाई देगा। को चुनिएincome ड्रॉपडाउन सूची से कॉलम।

आपकी स्क्रीन निम्नलिखित की तरह दिखाई देगी -

दो बाधाओं की उपस्थिति पर ध्यान दें। यदि आमदनी 50K से कम है, तो डेटापॉइंट हरे रंग का अधिग्रहण करेगा और यदि यह अधिक है तो यह लाल रंग का हो जाता है। जब हम बाद में इस अध्याय में तितर बितर भूखंड को देखते हैं तो आप डेटा बिंदु मैपिंग देखेंगे।

विभाजन

मशीन लर्निंग में, हम आम तौर पर पूरे उपलब्ध डेटा को दो भागों में विभाजित करते हैं। बड़े हिस्से का उपयोग मॉडल के प्रशिक्षण में किया जाता है, जबकि छोटे हिस्से का उपयोग परीक्षण के लिए किया जाता है। डेटा को विभाजित करने के लिए विभिन्न रणनीतियों का उपयोग किया जाता है।

वांछित विभाजन को परिभाषित करने के लिए, दाईं ओर क्लिक करें Partitioning नोड और चयन करें Configureविकल्प। आपको निम्न स्क्रीन दिखाई देगी -

मामले में, सिस्टम मॉडेलर ने उपयोग किया है Relative(%) मोड और डेटा 80:20 अनुपात में विभाजित है। विभाजन करते समय, डेटा बिंदुओं को यादृच्छिक रूप से उठाया जाता है। यह सुनिश्चित करता है कि आपका परीक्षण डेटा पक्षपाती न हो। रैखिक नमूनाकरण के मामले में, परीक्षण के लिए उपयोग किए गए शेष 20% डेटा प्रशिक्षण डेटा का सही प्रतिनिधित्व नहीं कर सकते हैं क्योंकि यह आपके संग्रह के दौरान पूरी तरह से पक्षपाती हो सकता है।

यदि आप सुनिश्चित हैं कि डेटा संग्रह के दौरान, यादृच्छिकता की गारंटी है, तो आप रैखिक नमूने का चयन कर सकते हैं। एक बार जब आपका डेटा मॉडल के प्रशिक्षण के लिए तैयार हो जाता है, तो उसे अगले नोड पर खिलाएं, जो कि हैDecision Tree Learner

निर्णय ट्री लर्नर

Decision Tree Learnerनाम के अनुसार नोड प्रशिक्षण डेटा का उपयोग करता है और एक मॉडल बनाता है। इस नोड की कॉन्फ़िगरेशन सेटिंग देखें, जो नीचे स्क्रीनशॉट में दर्शाया गया है -

जैसा कि आप देखते हैं Class है income। इस प्रकार वृक्ष आय स्तंभ के आधार पर बनाया जाएगा और यही हम इस मॉडल में हासिल करने की कोशिश कर रहे हैं। हम 50K से अधिक या कम आय वाले लोगों का अलगाव चाहते हैं।

यह नोड सफलतापूर्वक चलने के बाद, आपका मॉडल परीक्षण के लिए तैयार होगा।

निर्णय ट्री प्रिडिक्टर

डिसीजन ट्री प्रिडिक्टर नोड विकसित मॉडल को परीक्षण डेटा सेट पर लागू करता है और मॉडल की भविष्यवाणियों को जोड़ता है।

भविष्यवक्ता का आउटपुट दो अलग-अलग नोड्स को खिलाया जाता है - Scorer तथा Scatter Plot। अगला, हम भविष्यवाणी के आउटपुट की जांच करेंगे।

गणक

यह नोड उत्पन्न करता है confusion matrix। इसे देखने के लिए, नोड पर राइट क्लिक करें। आपको निम्न पॉपअप मेनू दिखाई देगा -

दबाएं View: Confusion Matrix मेनू विकल्प और मैट्रिक्स एक अलग विंडो में पॉप अप होगा जैसा कि यहां स्क्रीनशॉट में दिखाया गया है -

यह इंगित करता है कि हमारे विकसित मॉडल की सटीकता 83.71% है। यदि आप इससे संतुष्ट नहीं हैं, तो आप मॉडल निर्माण में अन्य मापदंडों के साथ खेल सकते हैं, विशेष रूप से, आप अपने डेटा को फिर से देखना और शुद्ध करना पसंद कर सकते हैं।

स्कैटर प्लॉट

डेटा वितरण के स्कैटर प्लॉट को देखने के लिए, राइट क्लिक करें Scatter Plot नोड और मेनू विकल्प का चयन करें Interactive View: Scatter Plot। आप निम्नलिखित कथानक देखेंगे -

भूखंड 50K की सीमा के आधार पर अलग-अलग आय वर्ग के लोगों को दो अलग-अलग रंग के डॉट्स - लाल और नीले रंग में देता है। ये हमारे रंग में सेट थेColor Managerनोड। वितरण एक्स-अक्ष पर प्लॉट किए गए आयु के सापेक्ष है। आप नोड के कॉन्फ़िगरेशन को बदलकर x- अक्ष के लिए एक अलग सुविधा का चयन कर सकते हैं।

कॉन्फ़िगरेशन डायलॉग यहाँ दिखाया गया है जहाँ हमने चुना है marital-status एक्स-अक्ष के लिए एक सुविधा के रूप में।

यह KNIME द्वारा प्रदान किए गए पूर्वनिर्धारित मॉडल पर हमारी चर्चा को पूरा करता है। हम आपको अपने स्व-अध्ययन के लिए मॉडल में अन्य दो नोड्स (सांख्यिकी और इंटरएक्टिव टेबल) लेने का सुझाव देते हैं।

आइए अब हम ट्यूटोरियल के सबसे महत्वपूर्ण भाग पर चलते हैं - अपना स्वयं का मॉडल बनाते हैं।

इस अध्याय में, आप कुछ अवलोकन की गई विशेषताओं के आधार पर पौधों को वर्गीकृत करने के लिए अपने स्वयं के मशीन लर्निंग मॉडल का निर्माण करेंगे। हम सुप्रसिद्ध का उपयोग करेंगेiris से डेटासेट UCI Machine Learning Repositoryइस काम के लिए। डेटासेट में पौधों के तीन अलग-अलग वर्ग होते हैं। हम अपने मॉडल को इन तीन वर्गों में से एक में एक अज्ञात पौधे को वर्गीकृत करने के लिए प्रशिक्षित करेंगे।

हम अपने मशीन लर्निंग मॉडल बनाने के लिए KNIME में एक नया वर्कफ़्लो बनाने के साथ शुरू करेंगे।

वर्कफ़्लो बनाना

एक नया वर्कफ़्लो बनाने के लिए, KNIME कार्यक्षेत्र में निम्न मेनू विकल्प का चयन करें।

File → New

आप निम्न स्क्रीन देखेंगे -

को चुनिए New KNIME Workflow विकल्प और पर क्लिक करें Nextबटन। अगली स्क्रीन पर, आपको वर्कफ़्लो के लिए वांछित नाम और इसे सहेजने के लिए गंतव्य फ़ोल्डर के लिए कहा जाएगा। इस जानकारी को इच्छानुसार दर्ज करें और क्लिक करेंFinish एक नया कार्यक्षेत्र बनाने के लिए।

दिए गए नाम के साथ एक नया कार्यक्षेत्र जोड़ा जाएगा Workspace जैसा कि यहाँ देखा गया है -

अब आप अपने मॉडल को बनाने के लिए इस कार्यक्षेत्र में विभिन्न नोड्स जोड़ेंगे। इससे पहले कि आप नोड्स जोड़ते हैं, आपको डाउनलोड और तैयार करना होगाiris हमारे उपयोग के लिए डेटासेट।

डेटासेट तैयार करना

यूसीआई मशीन लर्निंग रिपॉजिटरी साइट से आईरिस डेटासेट डाउनलोड करें आईरिस डेटासेट डाउनलोड करें । डाउनलोड की गई iris.data फ़ाइल CSV प्रारूप में है। कॉलम नाम जोड़ने के लिए हम इसमें कुछ बदलाव करेंगे।

अपने पसंदीदा पाठ संपादक में डाउनलोड की गई फ़ाइल खोलें और शुरुआत में निम्नलिखित पंक्ति जोड़ें।

sepal length, petal length, sepal width, petal width, class

जब हमारे File Reader नोड इस फ़ाइल को पढ़ता है, यह स्वचालित रूप से उपरोक्त फ़ील्ड को कॉलम नामों के रूप में ले जाएगा।

अब, आप विभिन्न नोड्स जोड़ना शुरू करेंगे।

फ़ाइल रीडर जोड़ना

के पास जाओ Node Repository देखने के लिए खोज बॉक्स में "फ़ाइल" टाइप करें File Readerनोड। यह नीचे स्क्रीनशॉट में देखा गया है -

का चयन करें और डबल क्लिक करें File Readerकार्यक्षेत्र में नोड जोड़ने के लिए। वैकल्पिक रूप से, आप नोड को कार्यक्षेत्र में जोड़ने के लिए ड्रैग-एन-ड्रॉप सुविधा का उपयोग कर सकते हैं। नोड जोड़े जाने के बाद, आपको इसे कॉन्फ़िगर करना होगा। नोड पर राइट क्लिक करें और चुनेंConfigureमेनू विकल्प। आपने पहले पाठ में ऐसा किया है।

डेटाफ़ाइल लोड होने के बाद सेटिंग्स स्क्रीन निम्न की तरह दिखता है।

अपना डेटासेट लोड करने के लिए, पर क्लिक करें Browseबटन और अपनी iris.data फ़ाइल का स्थान चुनें। नोड उस फ़ाइल की सामग्री को लोड करेगा जो कॉन्फ़िगरेशन बॉक्स के निचले हिस्से में प्रदर्शित होती है। एक बार जब आप संतुष्ट हो जाएं कि डेटाफ़ाइल ठीक से और लोड हो गया है, तो पर क्लिक करेंOK विन्यास संवाद बंद करने के लिए बटन।

अब आप इस नोड में कुछ एनोटेशन जोड़ेंगे। नोड पर राइट क्लिक करें और चुनेंNew Workflow Annotationमेनू विकल्प। स्क्रीन पर एक एनोटेशन बॉक्स दिखाई देगा जैसा कि यहाँ स्क्रीनशॉट में दिखाया गया है:

बॉक्स के अंदर क्लिक करें और निम्नलिखित एनोटेशन जोड़ें -

Reads iris.data

संपादन मोड से बाहर निकलने के लिए बॉक्स के बाहर कहीं भी क्लिक करें। आकार और वांछित के रूप में नोड के चारों ओर बॉक्स रखें। अंत में, डबल क्लिक करेंNode 1 इस स्ट्रिंग को निम्न में बदलने के लिए नोड के नीचे का पाठ -

Loads data

इस बिंदु पर, आपकी स्क्रीन निम्नलिखित की तरह दिखाई देगी -

अब हम अपने लोड किए गए डेटासेट को प्रशिक्षण और परीक्षण में विभाजित करने के लिए एक नया नोड जोड़ेंगे।

विभाजन नोड जोड़ना

में Node Repository खोज विंडो, खोजने के लिए कुछ वर्ण टाइप करें Partitioning नोड, जैसा कि नीचे स्क्रीनशॉट में देखा गया है -

हमारे कार्यक्षेत्र में नोड जोड़ें। इसके विन्यास को निम्नानुसार सेट करें -

Relative (%) : 95
Draw Randomly

निम्न स्क्रीनशॉट कॉन्फ़िगरेशन मापदंडों को दर्शाता है।

इसके बाद, दो नोड्स के बीच संबंध बनाएं। ऐसा करने के लिए, आउटपुट पर क्लिक करेंFile Reader नोड, माउस बटन को क्लिक करके रखें, एक रबर बैंड लाइन दिखाई देगी, इसे इनपुट के लिए खींचें Partitioningनोड, माउस बटन छोड़ें। अब एक कनेक्शन दो नोड्स के बीच स्थापित किया गया है।

एनोटेशन जोड़ें, विवरण बदलें, नोड और एनोटेशन दृश्य को इच्छानुसार स्थिति दें। आपकी स्क्रीन इस स्तर पर निम्नलिखित की तरह दिखनी चाहिए -

अगला, हम जोड़ देंगे k-Means नोड।

के-मीन्स नोड जोड़ना

को चुनिए k-Meansरिपॉजिटरी से नोड और इसे कार्यक्षेत्र में जोड़ें। यदि आप k- मीन्स एल्गोरिथ्म पर अपने ज्ञान को ताज़ा करना चाहते हैं, तो बस कार्यक्षेत्र के विवरण दृश्य में इसका विवरण देखें। यह नीचे स्क्रीनशॉट में दिखाया गया है -

संयोग से, आप अंतिम निर्णय लेने से पहले विवरण विंडो में विभिन्न एल्गोरिदम का वर्णन देख सकते हैं, जिस पर एक का उपयोग करना है।

नोड के लिए कॉन्फ़िगरेशन डायलॉग खोलें। हम यहां दिखाए गए अनुसार सभी क्षेत्रों के लिए चूक का उपयोग करेंगे -

क्लिक OK चूक स्वीकार करने और संवाद बंद करने के लिए।

एनोटेशन और विवरण निम्न पर सेट करें -

  • एनोटेशन: समूहों को वर्गीकृत करें

  • विवरण: क्लस्टरिंग निष्पादित करें

के शीर्ष आउटपुट कनेक्ट करें Partitioning के इनपुट के लिए नोड k-Meansनोड। अपनी वस्तुओं को रिपोज करें और आपकी स्क्रीन को निम्नलिखित की तरह दिखना चाहिए -

अगला, हम एक जोड़ देंगे Cluster Assigner नोड।

क्लस्टर असाइनर जोड़ना

Cluster Assignerप्रोटोटाइप के मौजूदा सेट में नया डेटा प्रदान करता है। यह दो इनपुट लेता है - प्रोटोटाइप मॉडल और डेटा डेटा युक्त डेटाेबल। विवरण विंडो में नोड का विवरण देखें जो नीचे स्क्रीनशॉट में दर्शाया गया है -

इस प्रकार, इस नोड के लिए आपको दो कनेक्शन करने होंगे -

  • के PMML क्लस्टर मॉडल आउटपुट Partitioning नोड → प्रोटोटाइप इनपुट Cluster Assigner

  • का दूसरा विभाजन आउटपुट Partitioning नोड → का इनपुट डेटा Cluster Assigner

ये दोनों कनेक्शन नीचे स्क्रीनशॉट में दिखाए गए हैं -

Cluster Assignerकिसी विशेष कॉन्फ़िगरेशन की आवश्यकता नहीं है। बस चूक स्वीकार करते हैं।

अब, इस नोड में कुछ एनोटेशन और विवरण जोड़ें। अपने नोड्स को पुनर्व्यवस्थित करें। आपकी स्क्रीन निम्नलिखित की तरह दिखनी चाहिए -

इस बिंदु पर, हमारा क्लस्टरिंग पूरा हो गया है। हमें आउटपुट को ग्राफिक रूप से देखने की आवश्यकता है। इसके लिए, हम एक स्कैटर प्लॉट जोड़ेंगे। हम स्कैटर प्लॉट में तीन वर्गों के लिए अलग-अलग रंग और आकार निर्धारित करेंगे। इस प्रकार, हम आउटपुट को फ़िल्टर करेंगेk-Means के माध्यम से पहले नोड Color Manager नोड और फिर के माध्यम से Shape Manager नोड।

रंग प्रबंधक जोड़ना

पता लगाएँ Color Managerभंडार में नोड। इसे कार्यक्षेत्र में जोड़ें। कॉन्फ़िगरेशन को उसके डिफ़ॉल्ट पर छोड़ दें। ध्यान दें कि आपको कॉन्फ़िगरेशन संवाद खोलना और हिट करना होगाOKचूक स्वीकार करने के लिए। नोड के लिए विवरण पाठ सेट करें।

के आउटपुट से कनेक्शन बनाएं k-Means के इनपुट के लिए Color Manager। आपकी स्क्रीन इस स्तर पर निम्नलिखित की तरह दिखाई देगी -

शेप मैनेजर को जोड़ना

पता लगाएँ Shape Managerरिपॉजिटरी में और इसे कार्यक्षेत्र में जोड़ें। इसकी कॉन्फ़िगरेशन को डिफ़ॉल्ट पर छोड़ दें। पिछले एक की तरह, आपको कॉन्फ़िगरेशन संवाद खोलना होगा और हिट करना होगाOKचूक सेट करने के लिए। के आउटपुट से कनेक्शन स्थापित करेंColor Manager के इनपुट के लिए Shape Manager। नोड के लिए विवरण सेट करें।

आपकी स्क्रीन निम्नलिखित की तरह दिखनी चाहिए -

अब, आप हमारे मॉडल में अंतिम नोड जोड़ेंगे और वह है स्कैटर प्लॉट।

स्कैटर प्लॉट जोड़ना

का पता लगाने Scatter Plotरिपॉजिटरी में नोड और इसे कार्यक्षेत्र में जोड़ें। का आउटपुट कनेक्ट करेंShape Manager के इनपुट के लिए Scatter Plot। चूक के लिए कॉन्फ़िगरेशन छोड़ दें। विवरण सेट करें।

अंत में, हाल ही में जोड़े गए तीन नोड्स में एक समूह एनोटेशन जोड़ें

व्याख्या: विज़ुअलाइज़ेशन

वांछित के रूप में नोड्स को पुन: व्यवस्थित करें। आपकी स्क्रीन इस स्तर पर निम्नलिखित की तरह दिखनी चाहिए।

यह मॉडल निर्माण का कार्य पूरा करता है।

मॉडल का परीक्षण करने के लिए, निम्न मेनू विकल्पों को निष्पादित करें: NodeExecute All

यदि सब कुछ सही हो जाता है, तो प्रत्येक नोड के नीचे स्थित स्थिति संकेत हरा हो जाएगा। यदि नहीं, तो आप को देखने की आवश्यकता होगीConsole त्रुटियों के लिए देखें, उन्हें ठीक करें और वर्कफ़्लो को फिर से चलाएँ।

अब, आप मॉडल के अनुमानित आउटपुट की कल्पना करने के लिए तैयार हैं। इसके लिए, राइट क्लिक करेंScatter Plot नोड और निम्न मेनू विकल्प का चयन करें: Interactive View: Scatter Plot

यह नीचे स्क्रीनशॉट में दिखाया गया है -

आपको स्क्रीन पर स्कैटर प्लॉट दिखाई देगा जैसा कि यहाँ दिखाया गया है -

आप x- और y- अक्ष को बदलकर विभिन्न विज़ुअलाइज़ेशन के माध्यम से चला सकते हैं। ऐसा करने के लिए, स्कैटर प्लॉट के शीर्ष दाएं कोने पर सेटिंग मेनू पर क्लिक करें। नीचे स्क्रीनशॉट में दिखाए अनुसार एक पॉपअप मेनू दिखाई देगा -

आप कई पहलुओं से डेटा की कल्पना करने के लिए इस स्क्रीन पर प्लॉट के लिए विभिन्न पैरामीटर सेट कर सकते हैं।

यह मॉडल निर्माण के हमारे कार्य को पूरा करता है।

KNIME मशीन लर्निंग मॉडल बनाने के लिए एक ग्राफिकल टूल प्रदान करता है। इस ट्यूटोरियल में, आपने सीखा कि अपनी मशीन पर KNIME कैसे डाउनलोड करें और इंस्टॉल करें।

सारांश

आपने KNIME कार्यक्षेत्र में प्रदान किए गए विभिन्न विचारों को सीखा। KNIME आपके सीखने के लिए कई पूर्वनिर्धारित वर्कफ़्लो प्रदान करता है। हमने KNIME की क्षमताओं को सीखने के लिए इस तरह के एक वर्कफ़्लो का इस्तेमाल किया। KNIME विभिन्न प्रारूपों में डेटा पढ़ने, कई एमएल एल्गोरिदम का उपयोग कर डेटा का विश्लेषण करने और अंत में कई अलग-अलग तरीकों से डेटा की कल्पना करने के लिए कई पूर्व-प्रोग्रामित नोड्स प्रदान करता है। ट्यूटोरियल के अंत की ओर, आपने अपना स्वयं का मॉडल बनाया जो कि स्क्रैच से शुरू होता है। हमने k- मीन्स एल्गोरिदम का उपयोग करके पौधों को वर्गीकृत करने के लिए प्रसिद्ध आइरिस डेटासेट का उपयोग किया।

अब आप अपनी खुद की एनालिटिक्स के लिए इन तकनीकों का उपयोग करने के लिए तैयार हैं।

भविष्य का कार्य

यदि आप एक डेवलपर हैं और अपने प्रोग्रामिंग एप्लिकेशन में KNIME घटकों का उपयोग करना चाहते हैं, तो आपको यह जानकर खुशी होगी कि KNIME मूल रूप से जावा, आर, पायथन और कई और अधिक प्रोग्रामिंग भाषाओं की एक विस्तृत श्रृंखला के साथ एकीकृत है।