PyBrain - अवलोकन

अजगर के उपयोग से कार्यान्वित मशीन लर्निंग के लिए पाइब्रेन एक ओपन-सोर्स लाइब्रेरी है। पुस्तकालय आपको नेटवर्क को प्रशिक्षित करने और नेटवर्क का परीक्षण करने के लिए नेटवर्क, डेटासेट, प्रशिक्षकों के लिए प्रशिक्षण एल्गोरिदम का उपयोग करने के लिए कुछ आसान प्रदान करता है।

पाइब्रेन की परिभाषा इसके आधिकारिक दस्तावेज़ीकरण के अनुसार इस प्रकार है -

PyBrain Python के लिए एक मॉड्यूलर मशीन लर्निंग लाइब्रेरी है। इसका लक्ष्य मशीन लर्निंग टास्क के लिए लचीले, आसानी से उपयोग किए जाने वाले अभी तक शक्तिशाली एल्गोरिदम और अपने एल्गोरिदम की तुलना और परीक्षण करने के लिए पूर्वनिर्धारित वातावरण की पेशकश करना है।

PyBrain Python- आधारित सुदृढीकरण सीखने, कृत्रिम बुद्धिमत्ता और तंत्रिका नेटवर्क लाइब्रेरी के लिए छोटा है। वास्तव में, हम पहले नाम के साथ आए थे और बाद में इस काफी वर्णनात्मक "बैक्रोनिम" को रिवर्स-इंजीनियर किया।

Pybrain की विशेषताएं

निम्नलिखित Pybrain की विशेषताएं हैं -

नेटवर्क

एक नेटवर्क मॉड्यूल से बना है और वे कनेक्शन का उपयोग करके जुड़े हुए हैं। Pybrain तंत्रिका नेटवर्क जैसे फ़ीड-फ़ॉर्वर्ड नेटवर्क, आवर्तक नेटवर्क आदि का समर्थन करता है।

feed-forward networkएक तंत्रिका नेटवर्क है, जहां नोड्स के बीच सूचना आगे की दिशा में चलती है और कभी भी पीछे की ओर नहीं जाएगी। फीड फॉरवर्ड नेटवर्क कृत्रिम तंत्रिका नेटवर्क में उपलब्ध नेटवर्क में पहला और सबसे सरल है।

जानकारी को इनपुट नोड्स से, छिपे हुए नोड्स के बगल में और बाद में आउटपुट नोड में भेज दिया जाता है।

Recurrent Networksफ़ीड फॉरवर्ड नेटवर्क के समान हैं; एकमात्र अंतर यह है कि प्रत्येक चरण पर डेटा को याद रखना है। प्रत्येक चरण के इतिहास को सहेजना होगा।

डेटासेट

डेटासेट नेटवर्क पर परीक्षण, मान्य और प्रशिक्षित करने के लिए दिया जाने वाला डेटा है। उपयोग किए जाने वाले डेटासेट का प्रकार उन कार्यों पर निर्भर करता है जो हम मशीन लर्निंग के साथ करने जा रहे हैं। सबसे अधिक इस्तेमाल किया जाने वाला डेटासेट जो Pybrain का समर्थन करता हैSupervisedDataSet तथा ClassificationDataSet

SupervisedDataSet - इसमें के क्षेत्र शामिल हैं input तथा target। यह एक डाटासेट का सबसे सरल रूप है और मुख्य रूप से पर्यवेक्षित शिक्षण कार्यों के लिए उपयोग किया जाता है।

ClassificationDataSet- इसका उपयोग मुख्य रूप से वर्गीकरण की समस्याओं से निपटने के लिए किया जाता है। इसमें लगता हैinput, targetफ़ील्ड और "क्लास" नामक एक अतिरिक्त फ़ील्ड जो दिए गए लक्ष्यों का एक स्वचालित बैकअप है। उदाहरण के लिए, आउटपुट या तो 1 या 0 होगा या आउटपुट दिए गए इनपुट के आधार पर एक साथ समूहीकृत किया जाएगा, अर्थात, या तो यह एक विशेष वर्ग में आएगा।

ट्रेनर

जब हम एक नेटवर्क बनाते हैं, अर्थात, न्यूरल नेटवर्क, तो यह दिए गए प्रशिक्षण डेटा के आधार पर प्रशिक्षित हो जाएगा। अब नेटवर्क ठीक से प्रशिक्षित है या नहीं, यह उस नेटवर्क पर परीक्षण किए गए डेटा की भविष्यवाणी पर निर्भर करेगा। Pybrain Training में सबसे महत्वपूर्ण अवधारणा BackpropTrainer और TrainUntilConvergence का उपयोग है।

BackpropTrainer - यह एक ट्रेनर है जो एक पर्यवेक्षित या ClassificationDataSet डेटासेट (संभावित अनुक्रमिक) के अनुसार त्रुटियों के बैकप्रोपैगेटिंग (समय के माध्यम से) के अनुसार मॉड्यूल के मापदंडों को प्रशिक्षित करता है।

TrainUntilConvergence −यह डेटासेट पर मॉड्यूल को तब तक प्रयोग करने के लिए उपयोग किया जाता है जब तक कि यह परिवर्तित नहीं हो जाता।

उपकरण

Pybrain उपकरण मॉड्यूल प्रदान करता है जो पैकेज आयात करके नेटवर्क बनाने में मदद कर सकता है: pybrain.tools.shortcuts.buildNetwork

VISUALIZATION

Pybrain का उपयोग करके परीक्षण डेटा की कल्पना नहीं की जा सकती है। लेकिन Pybrain अन्य चौखटे जैसे Mathplotlib, pyplot के साथ डेटा की कल्पना करने के लिए काम कर सकता है।

पाइब्रेन के फायदे

Pybrain के फायदे हैं -

  • मशीन लर्निंग सीखने के लिए पाइब्रेन एक ओपन-सोर्स फ्री लाइब्रेरी है। यह मशीन लर्निंग में रुचि रखने वाले किसी भी नवागंतुक के लिए एक अच्छी शुरुआत है।

  • पायब्रेन इसे लागू करने के लिए अजगर का उपयोग करता है और यह जावा / सी ++ जैसी भाषाओं की तुलना में विकास में तेज करता है।

  • Pybrain डेटा की कल्पना करने के लिए अजगर के अन्य पुस्तकालयों के साथ आसानी से काम करता है।

  • Pybrain लोकप्रिय नेटवर्क जैसे फ़ीड-फ़ॉर्वर्ड नेटवर्क, आवर्तक नेटवर्क, तंत्रिका नेटवर्क आदि के लिए समर्थन प्रदान करता है।

  • डेटासेट लोड करने के लिए .csv के साथ काम करना पाइब्रेन में बहुत आसान है। यह किसी अन्य लाइब्रेरी से डेटासेट का उपयोग करने की भी अनुमति देता है।

  • Pybrain प्रशिक्षकों का उपयोग करके डेटा का प्रशिक्षण और परीक्षण आसान है।

Pybrain की सीमाएँ

सामने आई किसी भी समस्या के लिए Pybrain कम मदद प्रदान करता है। कुछ अनुत्तरित प्रश्न हैंstackoverflow और इसपर Google Group

Pybrain का वर्कफ़्लो

Pybrain प्रलेखन के अनुसार मशीन लर्निंग का प्रवाह निम्नलिखित आकृति में दिखाया गया है -

शुरुआत में, हमारे पास कच्चा डेटा होता है जो प्रीप्रोसेसिंग के बाद Pybrain के साथ उपयोग किया जा सकता है।

Pybrain का प्रवाह डेटासेट्स से शुरू होता है जो प्रशिक्षित और परीक्षण डेटा में विभाजित होते हैं।

  • नेटवर्क बनाया जाता है, और डेटासेट और नेटवर्क ट्रेनर को दिया जाता है।

  • ट्रेनर नेटवर्क पर डेटा को प्रशिक्षित करता है और आउटपुट को प्रशिक्षित त्रुटि और सत्यापन त्रुटि के रूप में वर्गीकृत करता है जिसे विज़ुअलाइज़ किया जा सकता है।

  • परीक्षण किए गए डेटा को यह देखने के लिए मान्य किया जा सकता है कि आउटपुट प्रशिक्षित डेटा से मेल खाता है या नहीं।

शब्दावली

मशीन सीखने के लिए पाइब्रेन के साथ काम करते समय महत्वपूर्ण शर्तों पर विचार किया जाना है। वे इस प्रकार हैं -

Total Error- यह नेटवर्क प्रशिक्षित होने के बाद दिखाई गई त्रुटि को संदर्भित करता है। यदि त्रुटि प्रत्येक पुनरावृत्ति पर बदलती रहती है, तो इसका मतलब है कि इसे अभी भी व्यवस्थित करने के लिए समय चाहिए, जब तक कि यह पुनरावृत्ति के बीच एक निरंतर त्रुटि दिखाना शुरू नहीं करता है। एक बार जब यह निरंतर त्रुटि संख्या दिखाना शुरू कर देता है, तो इसका मतलब है कि नेटवर्क परिवर्तित हो गया है और किसी भी अतिरिक्त प्रशिक्षण के बावजूद वही लागू रहेगा।

Trained data - यह Pybrain नेटवर्क को प्रशिक्षित करने के लिए उपयोग किया जाने वाला डेटा है।

Testing data - यह प्रशिक्षित Pybrain नेटवर्क का परीक्षण करने के लिए उपयोग किया जाने वाला डेटा है।

Trainer- जब हम एक नेटवर्क बनाते हैं, यानी न्यूरल नेटवर्क, तो उसे दिए गए प्रशिक्षण डेटा के आधार पर प्रशिक्षित किया जाएगा। अब नेटवर्क ठीक से प्रशिक्षित है या नहीं, यह उस नेटवर्क पर परीक्षण किए गए डेटा की भविष्यवाणी पर निर्भर करेगा। Pybrain Training में सबसे महत्वपूर्ण अवधारणा BackpropTrainer और TrainUntilConvergence का उपयोग है।

BackpropTrainer - यह एक ट्रेनर है जो एक पर्यवेक्षित या ClassificationDataSet डेटासेट (संभावित अनुक्रमिक) के अनुसार त्रुटियों के बैकप्रोपैगेटिंग (समय के माध्यम से) के अनुसार मॉड्यूल के मापदंडों को प्रशिक्षित करता है।

TrainUntilConvergence - इसका उपयोग डेटासेट पर मॉड्यूल को तब तक करने के लिए किया जाता है जब तक कि यह परिवर्तित न हो जाए।

Layers - परतें मूल रूप से फ़ंक्शंस का एक सेट होती हैं जो किसी नेटवर्क की छिपी परतों पर उपयोग की जाती हैं।

Connections- एक कनेक्शन एक परत के समान काम करता है; केवल एक अंतर यह है कि यह एक नेटवर्क में एक नोड से दूसरे डेटा को शिफ्ट करता है।

Modules - मॉड्यूल नेटवर्क होते हैं जिनमें इनपुट और आउटपुट बफर होते हैं।

Supervised Learning- इस मामले में, हमारे पास एक इनपुट और आउटपुट है, और हम आउटपुट के साथ इनपुट को मैप करने के लिए एक एल्गोरिथ्म का उपयोग कर सकते हैं। एल्गोरिथ्म दिए गए प्रशिक्षण डेटा पर सीखने के लिए बनाया गया है और उस पर पुनरावृत्ति हुई है और जब एल्गोरिथ्म सही डेटा की भविष्यवाणी करता है तो पुनरावृत्ति की प्रक्रिया बंद हो जाती है।

Unsupervised- इस मामले में, हमारे पास इनपुट है लेकिन आउटपुट नहीं जानते हैं। अप्रशिक्षित सीखने की भूमिका को दिए गए डेटा के साथ यथासंभव प्रशिक्षित किया जाना है।