पायथन के साथ एआई - त्वरित गाइड

कंप्यूटर या मशीनों के आविष्कार के बाद से, विभिन्न कार्यों को करने की उनकी क्षमता में तेजी से वृद्धि हुई है। मनुष्य ने अपने विविध कार्यशील डोमेन, उनकी बढ़ती गति और समय के साथ आकार को कम करने के संदर्भ में कंप्यूटर सिस्टम की शक्ति विकसित की है।

आर्टिफिशियल इंटेलिजेंस नाम के कंप्यूटर साइंस की एक शाखा कंप्यूटर या मशीनों को इंसान के रूप में बुद्धिमान बनाने का पीछा करती है।

आर्टिफिशियल इंटेलिजेंस (AI) का मूल संकल्पना

जॉन मैकार्थी के आर्टिफिशियल इंटेलिजेंस के पिता के अनुसार, यह "बुद्धिमान मशीनों, विशेष रूप से बुद्धिमान कंप्यूटर प्रोग्राम बनाने का विज्ञान और इंजीनियरिंग" है।

आर्टिफिशियल इंटेलिजेंस एक कंप्यूटर बनाने का एक तरीका है, एक कंप्यूटर-नियंत्रित रोबोट, या एक सॉफ्टवेयर बुद्धिमानी से सोचता है, उसी तरह से जो बुद्धिमान मानव सोचता है। एआई का अध्ययन इस बात से किया जाता है कि मानव मस्तिष्क कैसे सोचता है और मनुष्य कैसे सीखते हैं, निर्णय लेते हैं, और एक समस्या को हल करने की कोशिश करते हुए काम करते हैं, और फिर बुद्धिमान सॉफ्टवेयर और सिस्टम विकसित करने के आधार पर इस अध्ययन के परिणामों का उपयोग करते हैं।

कंप्यूटर सिस्टम की शक्ति का दोहन करते हुए, मानव की जिज्ञासा, उसे आश्चर्य की ओर ले जाती है, "क्या कोई मशीन ऐसा सोच और व्यवहार कर सकती है जैसे मनुष्य करते हैं?"

इस प्रकार, एआई का विकास उन मशीनों में समान बुद्धि बनाने के इरादे से शुरू हुआ, जो हम मनुष्यों में उच्च पाते हैं और मानते हैं।

लर्निंग एआई की आवश्यकता

जैसा कि हम जानते हैं कि AI मशीनों का निर्माण इंसानों की तरह बुद्धिमान बनाने के लिए करता है। एआई का अध्ययन करने के लिए हमारे पास कई कारण हैं। कारण इस प्रकार हैं -

AI डेटा के जरिए सीख सकता है

अपने दैनिक जीवन में, हम डेटा की बड़ी मात्रा के साथ सौदा करते हैं और मानव मस्तिष्क इतने डेटा का ट्रैक नहीं रख सकता है। इसलिए हमें चीजों को स्वचालित करने की आवश्यकता है। स्वचालन करने के लिए, हमें AI का अध्ययन करने की आवश्यकता है क्योंकि यह डेटा से सीख सकता है और सटीकता के साथ और बिना थके दोहराए जाने वाले कार्य कर सकता है।

एआई खुद सिखा सकता है

यह बहुत आवश्यक है कि एक प्रणाली को खुद को सिखाना चाहिए क्योंकि डेटा स्वयं बदलता रहता है और इस तरह के डेटा से प्राप्त ज्ञान को लगातार अपडेट किया जाना चाहिए। हम इस उद्देश्य को पूरा करने के लिए एआई का उपयोग कर सकते हैं क्योंकि एआई सक्षम प्रणाली खुद सिखा सकती है।

एआई वास्तविक समय में जवाब दे सकता है

तंत्रिका नेटवर्क की मदद से कृत्रिम बुद्धिमत्ता डेटा का अधिक गहराई से विश्लेषण कर सकती है। इस क्षमता के कारण, एआई उन स्थितियों के बारे में सोच और प्रतिक्रिया दे सकता है जो वास्तविक समय में स्थितियों पर आधारित हैं।

एआई सटीकता प्राप्त करता है

गहरे तंत्रिका नेटवर्क की मदद से, एआई जबरदस्त सटीकता प्राप्त कर सकता है। रोगियों के MRI से कैंसर जैसी बीमारियों का निदान करने के लिए AI दवा के क्षेत्र में मदद करता है।

एआई इससे बाहर निकलने के लिए डेटा को व्यवस्थित कर सकता है

डेटा उन प्रणालियों के लिए एक बौद्धिक संपदा है जो स्व-शिक्षण एल्गोरिदम का उपयोग कर रहे हैं। हमें एआई को डेटा को इंडेक्स करने और व्यवस्थित करने की आवश्यकता है ताकि यह हमेशा सबसे अच्छा परिणाम दे।

बुद्धि को समझना

AI से स्मार्ट सिस्टम बनाया जा सकता है। हमें बुद्धि की अवधारणा को समझने की आवश्यकता है ताकि हमारा मस्तिष्क स्वयं की तरह एक और खुफिया तंत्र का निर्माण कर सके।

इंटेलिजेंस क्या है?

सिस्टम की गणना, तर्क, संबंधों और उपमाओं को समझने, अनुभव से सीखने, स्टोर करने और स्मृति से जानकारी प्राप्त करने, समस्याओं को हल करने, जटिल विचारों को समझने, प्राकृतिक भाषा का उपयोग करने, वर्गीकृत करने, सामान्यीकरण करने और नई स्थितियों को अनुकूलित करने की क्षमता।

खुफिया के प्रकार

जैसा कि एक अमेरिकी विकास मनोवैज्ञानिक, हॉवर्ड गार्डनर ने कहा है, इंटेलिजेंस मल्टीफॉल्ड में आता है -

अनु क्रमांक खुफिया और विवरण उदाहरण
1

Linguistic intelligence

ध्वनिविज्ञान (बोलने की आवाज़), वाक्य रचना (व्याकरण), और शब्दार्थ (अर्थ) के तंत्र को बोलने, पहचानने और उपयोग करने की क्षमता।

नैरेटर, ओरेटर
2

Musical intelligence

ध्वनि, पिच की समझ, लय से बने अर्थों को बनाने, उनसे संवाद करने और समझने की क्षमता।

संगीतकार, गायक, संगीतकार
3

Logical-mathematical intelligence

कार्रवाई या वस्तुओं की अनुपस्थिति में रिश्तों का उपयोग करने और समझने की क्षमता। यह जटिल और अमूर्त विचारों को समझने की क्षमता भी है।

गणितज्ञ, वैज्ञानिक
4

Spatial intelligence

दृश्य या स्थानिक जानकारी को देखने, इसे बदलने और वस्तुओं के संदर्भ के बिना दृश्य छवियों को फिर से बनाने, 3 डी छवियों का निर्माण करने और उन्हें स्थानांतरित करने और उन्हें घुमाने की क्षमता।

मानचित्र पाठक, अंतरिक्ष यात्री, भौतिक विज्ञानी
5

Bodily-Kinesthetic intelligence

समस्याओं या फैशन उत्पादों को हल करने के लिए शरीर के पूर्ण या भाग का उपयोग करने की क्षमता, ठीक और मोटे मोटर कौशल पर नियंत्रण और वस्तुओं में हेरफेर करना।

खिलाड़ी, नर्तक
6

Intra-personal intelligence

किसी की अपनी भावनाओं, इरादों और प्रेरणाओं में अंतर करने की क्षमता।

गौतम बुद्ध
7

Interpersonal intelligence

अन्य लोगों की भावनाओं, विश्वासों और इरादों के बीच भेद करने और पहचानने की क्षमता।

मास कम्युनिकेटर्स, साक्षात्कारकर्ता

आप कह सकते हैं कि एक मशीन या एक प्रणाली कृत्रिम रूप से बुद्धिमान होती है जब वह कम से कम एक या सभी इंटेलिजेंस से लैस होती है।

इंटेलिजेंस कंपोज़्ड क्या है?

बुद्धि अमूर्त है। यह से बना है -

  • Reasoning
  • Learning
  • समस्या को सुलझाना
  • Perception
  • भाषाई बुद्धि

आइए हम सभी घटकों को संक्षेप में देखें -

विचार

यह ऐसी प्रक्रियाओं का समूह है जो हमें निर्णय लेने, निर्णय लेने और भविष्यवाणी करने के लिए आधार प्रदान करने में सक्षम बनाता है। मोटे तौर पर दो प्रकार हैं -

आगमनात्मक तर्क निगमनात्मक तर्क
यह व्यापक सामान्य कथन बनाने के लिए विशिष्ट टिप्पणियों का संचालन करता है। यह एक सामान्य कथन से शुरू होता है और एक विशिष्ट, तार्किक निष्कर्ष तक पहुंचने की संभावनाओं की जांच करता है।
यहां तक ​​कि अगर सभी परिसर एक बयान में सच हैं, तो प्रेरक तर्क निष्कर्ष को गलत होने की अनुमति देता है। यदि कुछ सामान्य रूप से चीजों के वर्ग के बारे में सच है, तो यह उस वर्ग के सभी सदस्यों के लिए भी सही है।
Example - "नीता एक शिक्षिका हैं। नीता अध्ययनशील हैं। इसलिए, सभी शिक्षक अध्ययनशील हैं।" Example - "60 साल से अधिक उम्र की सभी महिलाएं दादी हैं। शालिनी 65 साल की हैं। इसलिए, शालिनी एक दादी हैं।"

सीख - l

सीखने की क्षमता मनुष्यों, जानवरों की विशेष प्रजातियों और AI- सक्षम प्रणालियों के पास है। सीखना निम्नानुसार वर्गीकृत किया गया है -

श्रवण अधिगम

यह सुन-सुन कर सीख रहा है। उदाहरण के लिए, रिकॉर्ड किए गए ऑडियो व्याख्यान सुनने वाले छात्र।

एपिसोडिक लर्निंग

उन घटनाओं के अनुक्रमों को याद करके सीखना, जिन्हें किसी ने देखा या अनुभव किया है। यह रैखिक और क्रमबद्ध है।

मोटर लर्निंग

यह मांसपेशियों के सटीक आंदोलन से सीख रहा है। उदाहरण के लिए, वस्तुओं को चुनना, लिखना, आदि।

देखकर सीखना

दूसरों को देखकर और उनकी नकल करके सीखना। उदाहरण के लिए, बच्चा अपने माता-पिता की नकल करके सीखने की कोशिश करता है।

अवधारणात्मक अधिगम

यह उत्तेजनाओं को पहचानना सीख रहा है जो पहले देखा है। उदाहरण के लिए, वस्तुओं और स्थितियों की पहचान करना और उनका वर्गीकरण करना।

संबंधपरक अधिगम

इसमें संपूर्ण गुणों के बजाय, रिलेशनल गुणों के आधार पर विभिन्न उत्तेजनाओं के बीच अंतर करना सीखना शामिल है। उदाहरण के लिए, आलू पकाने के समय 'थोड़ा कम' नमक जोड़ना, जो पिछली बार नमकीन हुआ था, जब जोड़ने के साथ पकाया जाता है तो नमक का एक बड़ा चमचा कहते हैं।

  • Spatial Learning - यह दृश्य उत्तेजनाओं जैसे कि चित्र, रंग, नक्शे आदि के माध्यम से सीख रहा है। उदाहरण के लिए, एक व्यक्ति वास्तव में सड़क का अनुसरण करने से पहले मन में रोडमैप बना सकता है।

  • Stimulus-Response Learning- एक विशेष उत्तेजना मौजूद होने पर यह एक विशेष व्यवहार करना सीख रहा है। उदाहरण के लिए, एक कुत्ता सुनवाई की घंटी पर कान उठाता है।

समस्या को सुलझाना

यह एक ऐसी प्रक्रिया है जिसमें कोई व्यक्ति कुछ पथ लेकर वर्तमान स्थिति से एक वांछित समाधान पर पहुंचने की कोशिश करता है, जिसे ज्ञात या अज्ञात बाधाओं द्वारा अवरुद्ध किया जाता है।

समस्या हल करना भी शामिल है decision making, जो वांछित लक्ष्य तक पहुंचने के लिए कई विकल्पों में से सबसे उपयुक्त विकल्प का चयन करने की प्रक्रिया है।

अनुभूति

यह संवेदी जानकारी प्राप्त करने, व्याख्या करने, चयन करने और व्यवस्थित करने की प्रक्रिया है।

धारणा मानता है sensing। मनुष्यों में, धारणा संवेदी अंगों द्वारा सहायता प्राप्त है। एआई के डोमेन में, धारणा तंत्र सेंसर द्वारा अर्जित डेटा को एक सार्थक तरीके से एक साथ रखता है।

भाषाई बुद्धि

यह मौखिक और लिखित भाषा का उपयोग करने, समझने, बोलने और लिखने की क्षमता है। यह पारस्परिक संचार में महत्वपूर्ण है।

AI में क्या शामिल है

कृत्रिम बुद्धिमत्ता अध्ययन का एक विशाल क्षेत्र है। अध्ययन का यह क्षेत्र वास्तविक दुनिया की समस्याओं के समाधान खोजने में मदद करता है।

आइए अब हम AI के भीतर अध्ययन के विभिन्न क्षेत्रों को देखते हैं -

मशीन लर्निंग

यह AI के सबसे लोकप्रिय क्षेत्रों में से एक है। इस दायर की मूल अवधारणा मशीन सीखने को डेटा से बनाना है क्योंकि मनुष्य अपने अनुभव से सीख सकता है। इसमें सीखने के मॉडल होते हैं जिनके आधार पर अज्ञात डेटा पर भविष्यवाणियां की जा सकती हैं।

तर्क

यह अध्ययन का एक और महत्वपूर्ण क्षेत्र है जिसमें गणितीय तर्क कंप्यूटर प्रोग्राम को निष्पादित करने के लिए उपयोग किया जाता है। इसमें पैटर्न मिलान, अर्थ विश्लेषण आदि करने के लिए नियम और तथ्य शामिल हैं।

खोज कर

अध्ययन का यह क्षेत्र मूल रूप से शतरंज, टिक-टैक-टो जैसे खेलों में उपयोग किया जाता है। खोज एल्गोरिदम पूरे खोज स्थान को खोजने के बाद इष्टतम समाधान देता है।

कृत्रिम तंत्रिका प्रसार

यह कुशल कंप्यूटिंग सिस्टम का एक नेटवर्क है, जिसका केंद्रीय विषय जैविक तंत्रिका नेटवर्क के सादृश्य से उधार लिया गया है। ANN का उपयोग रोबोटिक्स, भाषण मान्यता, भाषण प्रसंस्करण आदि में किया जा सकता है।

जन्म प्रमेय

आनुवंशिक एल्गोरिदम एक से अधिक कार्यक्रमों की सहायता से समस्याओं को हल करने में मदद करते हैं। परिणाम योग्यतम का चयन करने पर आधारित होगा।

ज्ञान निरूपण

यह अध्ययन का वह क्षेत्र है जिसकी मदद से हम तथ्यों को उस तरह से प्रस्तुत कर सकते हैं जैसे मशीन जो मशीन के लिए समझ में आता है। अधिक कुशलता से ज्ञान का प्रतिनिधित्व किया जाता है; अधिक प्रणाली बुद्धिमान होगी।

ऐ का आवेदन

इस खंड में, हम AI द्वारा समर्थित विभिन्न क्षेत्रों को देखेंगे -

जुआ

एआई रणनीतिक खेल जैसे शतरंज, पोकर, टिक-टैक-टो इत्यादि में महत्वपूर्ण भूमिका निभाता है, जहां मशीन बड़ी संख्या में संभावित पदों के बारे में सोच सकती है।

प्राकृतिक भाषा प्रसंस्करण

कंप्यूटर के साथ बातचीत करना संभव है जो मानव द्वारा बोली जाने वाली प्राकृतिक भाषा को समझता है।

विशेषज्ञ प्रणालियां

कुछ एप्लिकेशन हैं जो मशीन, सॉफ्टवेयर और विशेष जानकारी को तर्क और सलाह प्रदान करने के लिए एकीकृत करते हैं। वे उपयोगकर्ताओं को स्पष्टीकरण और सलाह प्रदान करते हैं।

विजन सिस्टम

ये सिस्टम कंप्यूटर पर विजुअल इनपुट को समझते हैं, उसकी व्याख्या करते हैं और उसे समझते हैं। उदाहरण के लिए,

  • एक जासूसी हवाई जहाज तस्वीरें लेता है, जिनका उपयोग स्थानिक जानकारी या क्षेत्रों के नक्शे का पता लगाने के लिए किया जाता है।

  • रोगी का निदान करने के लिए डॉक्टर नैदानिक ​​विशेषज्ञ प्रणाली का उपयोग करते हैं।

  • पुलिस कंप्यूटर सॉफ़्टवेयर का उपयोग करती है जो अपराधी के चेहरे को फोरेंसिक कलाकार द्वारा बनाए गए चित्र के साथ पहचान सकती है।

वाक् पहचान

कुछ बुद्धिमान प्रणालियाँ भाषा को वाक्यों और उनके अर्थों के संदर्भ में सुनने और समझने में सक्षम हैं जबकि एक मानव इससे बात करता है। यह विभिन्न लहजे, गंदे शब्द, पृष्ठभूमि में शोर, ठंड के कारण मानव के शोर में बदलाव आदि को संभाल सकता है।

हस्तलिपि अभिज्ञान

लिखावट पहचान सॉफ्टवेयर एक पेन या एक स्टाइलस द्वारा स्क्रीन पर कागज पर लिखे गए पाठ को पढ़ता है। यह अक्षरों के आकार को पहचान सकता है और इसे संपादन योग्य पाठ में बदल सकता है।

बुद्धिमान रोबोट

रोबोट मानव द्वारा दिए गए कार्यों को करने में सक्षम हैं। उनके पास वास्तविक दुनिया से प्रकाश, गर्मी, तापमान, गति, ध्वनि, टक्कर और दबाव जैसे भौतिक डेटा का पता लगाने के लिए सेंसर हैं। बुद्धिमत्ता का प्रदर्शन करने के लिए उनके पास कुशल प्रोसेसर, कई सेंसर और विशाल मेमोरी है। इसके अलावा, वे अपनी गलतियों से सीखने में सक्षम हैं और वे नए वातावरण के लिए अनुकूल हो सकते हैं।

संज्ञानात्मक मॉडलिंग: मानव सोच की प्रक्रिया का अनुकरण

संज्ञानात्मक मॉडलिंग मूल रूप से कंप्यूटर विज्ञान के भीतर अध्ययन का क्षेत्र है जो अध्ययन और मानव की सोच प्रक्रिया का अनुकरण करता है। AI का मुख्य काम मशीन को इंसान की तरह सोचना है। मानव सोच प्रक्रिया की सबसे महत्वपूर्ण विशेषता समस्या समाधान है। यही कारण है कि कमोबेश संज्ञानात्मक मॉडलिंग यह समझने की कोशिश करती है कि मनुष्य समस्याओं को कैसे हल कर सकते हैं। उसके बाद इस मॉडल का उपयोग विभिन्न AI अनुप्रयोगों जैसे कि मशीन लर्निंग, रोबोटिक्स, प्राकृतिक भाषा प्रसंस्करण आदि के लिए किया जा सकता है, निम्नलिखित मानव मस्तिष्क के विभिन्न सोच स्तरों का आरेख है -

एजेंट और पर्यावरण

इस खंड में, हम एजेंट और पर्यावरण पर ध्यान केंद्रित करेंगे और आर्टिफिशियल इंटेलिजेंस में ये कैसे मदद करेंगे।

एजेंट

एक एजेंट कुछ भी है जो सेंसर के माध्यम से अपने वातावरण को महसूस कर सकता है और प्रभावकारों के माध्यम से उस वातावरण पर कार्य करता है।

  • human agent संवेदकों के समानांतर आंखें, कान, नाक, जीभ और त्वचा जैसे संवेदी अंग होते हैं, और अन्य अंग जैसे कि हाथ, पैर, मुंह, प्रभावों के लिए।

  • robotic agent सेंसर के लिए कैमरा और इन्फ्रारेड रेंज फाइंडर्स और इफैक्टर्स के लिए विभिन्न मोटर्स और एक्ट्यूएटर्स की जगह।

  • software agent अपने कार्यक्रमों और कार्यों के रूप में बिट स्ट्रिंग्स को इनकोड किया है।

वातावरण

कुछ कार्यक्रम पूरी तरह से संचालित होते हैं artificial environment एक स्क्रीन पर कीबोर्ड इनपुट, डेटाबेस, कंप्यूटर फाइल सिस्टम और कैरेक्टर आउटपुट तक ही सीमित है।

इसके विपरीत, कुछ सॉफ्टवेयर एजेंट (सॉफ्टवेयर रोबोट या सॉफ्टबॉट) अमीर, असीमित सॉफ्टबॉट डोमेन में मौजूद हैं। सिम्युलेटर में एक हैvery detailed, complex environment। सॉफ़्टवेयर एजेंट को वास्तविक समय में क्रियाओं की एक लंबी सरणी से चुनने की आवश्यकता होती है। सॉफ्टबोट ग्राहक की ऑनलाइन प्राथमिकताओं को स्कैन करने के लिए डिज़ाइन किया गया है और ग्राहक के कामों में दिलचस्प चीजें दिखाता हैreal साथ ही ए artificial वातावरण।

इस अध्याय में, हम सीखेंगे कि पायथन के साथ कैसे शुरुआत करें। हम यह भी समझेंगे कि कृत्रिम बुद्धि के लिए पायथन कैसे मदद करता है।

क्यों AI के लिए पायथन

कृत्रिम बुद्धिमत्ता को भविष्य की ट्रेंडिंग तकनीक माना जाता है। पहले से ही इस पर कई आवेदन किए गए हैं। इसके कारण कई कंपनियां और शोधकर्ता इसमें रुचि ले रहे हैं। लेकिन यहां मुख्य सवाल यह उठता है कि इन AI अनुप्रयोगों को किस प्रोग्रामिंग भाषा में विकसित किया जा सकता है? लिस्प, प्रोलॉग, सी ++, जावा और पायथन जैसी विभिन्न प्रोग्रामिंग भाषाएं हैं, जिनका उपयोग एआई के विकासशील अनुप्रयोगों के लिए किया जा सकता है। उनमें से, पायथन प्रोग्रामिंग भाषा एक बड़ी लोकप्रियता हासिल करती है और इसके कारण निम्न हैं -

सरल वाक्यविन्यास और कम कोडिंग

पायथन में अन्य प्रोग्रामिंग भाषाओं के बीच बहुत कम कोडिंग और सरल वाक्यविन्यास शामिल हैं जिनका उपयोग AI अनुप्रयोगों को विकसित करने के लिए किया जा सकता है। इस सुविधा के कारण, परीक्षण आसान हो सकता है और हम प्रोग्रामिंग पर अधिक ध्यान केंद्रित कर सकते हैं।

एआई परियोजनाओं के लिए इनबिल्ट लाइब्रेरी

एआई के लिए पायथन का उपयोग करने का एक बड़ा फायदा यह है कि यह इनबिल्ट लाइब्रेरी के साथ आता है। पायथन में लगभग सभी प्रकार की AI परियोजनाओं के लिए पुस्तकालय हैं। उदाहरण के लिए,NumPy, SciPy, matplotlib, nltk, SimpleAI अजगर के कुछ महत्वपूर्ण इनबिल्ट लाइब्रेरी हैं।

  • Open source- पायथन एक ओपन सोर्स प्रोग्रामिंग लैंग्वेज है। यह समुदाय में इसे व्यापक रूप से लोकप्रिय बनाता है।

  • Can be used for broad range of programming- पायथन का उपयोग प्रोग्रामिंग कार्यों की एक विस्तृत श्रृंखला के लिए किया जा सकता है, जैसे छोटे शेल स्क्रिप्ट से लेकर एंटरप्राइज़ वेब एप्लिकेशन तक। यह एक और कारण है कि पायथन एआई परियोजनाओं के लिए उपयुक्त है।

अजगर की विशेषताएं

पायथन एक उच्च-स्तरीय, व्याख्यात्मक, संवादात्मक और वस्तु-उन्मुख स्क्रिप्टिंग भाषा है। पायथन को अत्यधिक पठनीय बनाया गया है। यह अक्सर अंग्रेजी कीवर्ड का उपयोग करता है जहां अन्य भाषाएं विराम चिह्न का उपयोग करती हैं, और इसमें अन्य भाषाओं की तुलना में कम वाक्यात्मक निर्माण होते हैं। पायथन की विशेषताओं में निम्नलिखित शामिल हैं -

  • Easy-to-learn- पायथन में कुछ कीवर्ड, सरल संरचना और एक स्पष्ट रूप से परिभाषित वाक्यविन्यास है। इससे छात्र जल्दी से भाषा चुन सकता है।

  • Easy-to-read - पायथन कोड अधिक स्पष्ट रूप से परिभाषित और आंखों के लिए दृश्यमान है।

  • Easy-to-maintain - पायथन का सोर्स कोड काफी आसान है।

  • A broad standard library - लाइब्रेरी का पाइथन बल्क यूनिक्स, विंडोज और मैकिंटोश पर बहुत पोर्टेबल और क्रॉस-प्लेटफॉर्म संगत है।

  • Interactive Mode - पायथन में एक इंटरैक्टिव मोड के लिए समर्थन है जो कोड के स्निपेट्स के इंटरैक्टिव परीक्षण और डीबगिंग की अनुमति देता है।

  • Portable - अजगर विभिन्न प्रकार के हार्डवेयर प्लेटफार्मों पर चल सकता है और सभी प्लेटफार्मों पर एक ही इंटरफ़ेस है।

  • Extendable- हम पायथॉन दुभाषिया में निम्न-स्तरीय मॉड्यूल जोड़ सकते हैं। ये मॉड्यूल प्रोग्रामर को अधिक कुशल होने के लिए अपने टूल को जोड़ने या कस्टमाइज़ करने में सक्षम बनाते हैं।

  • Databases - पायथन सभी प्रमुख वाणिज्यिक डेटाबेस को इंटरफेस प्रदान करता है।

  • GUI Programming - पायथन जीयूआई अनुप्रयोगों का समर्थन करता है जो विंडोज एमएफसी, मैकिंटोश और यूनिक्स के एक्स विंडो सिस्टम जैसे कई सिस्टम कॉल, लाइब्रेरी और विंडोज सिस्टम को बनाया और पोर्ट किया जा सकता है।

  • Scalable - पायथन शेल स्क्रिप्टिंग की तुलना में बड़े कार्यक्रमों के लिए एक बेहतर संरचना और समर्थन प्रदान करता है।

पायथन की महत्वपूर्ण विशेषताएं

आइए अब हम पायथन की निम्नलिखित महत्वपूर्ण विशेषताओं पर विचार करते हैं -

  • यह कार्यात्मक और संरचित प्रोग्रामिंग विधियों के साथ-साथ OOP का समर्थन करता है।

  • इसका उपयोग स्क्रिप्टिंग भाषा के रूप में किया जा सकता है या बड़े अनुप्रयोगों के निर्माण के लिए बाइट-कोड के लिए संकलित किया जा सकता है।

  • यह बहुत ही उच्च-स्तरीय गतिशील डेटा प्रकार प्रदान करता है और गतिशील प्रकार की जाँच का समर्थन करता है।

  • यह स्वचालित कचरा संग्रहण का समर्थन करता है।

  • इसे C, C ++, COM, ActiveX, CORBA, और Java के साथ आसानी से एकीकृत किया जा सकता है।

पायथन स्थापित करना

पायथन वितरण बड़ी संख्या में प्लेटफार्मों के लिए उपलब्ध है। आपको अपने प्लेटफ़ॉर्म के लिए लागू केवल बाइनरी कोड को डाउनलोड करने और पायथन को स्थापित करने की आवश्यकता है।

यदि आपके प्लेटफ़ॉर्म के लिए बाइनरी कोड उपलब्ध नहीं है, तो आपको मैन्युअल रूप से सोर्स कोड को संकलित करने के लिए C कंपाइलर की आवश्यकता होगी। स्रोत कोड को संकलित करना उन विशेषताओं के विकल्प के संदर्भ में अधिक लचीलापन प्रदान करता है जिनकी आपको अपनी स्थापना में आवश्यकता होती है।

यहाँ विभिन्न प्लेटफार्मों पर अजगर स्थापित करने का एक त्वरित अवलोकन है -

यूनिक्स और लिनक्स इंस्टॉलेशन

यूनिक्स / लिनक्स मशीन पर पायथन को स्थापित करने के लिए इन चरणों का पालन करें।

  • एक वेब ब्राउज़र खोलें और पर जाएं https://www.python.org/downloads

  • यूनिक्स / लिनक्स के लिए उपलब्ध ज़िप्ड सोर्स कोड डाउनलोड करने के लिए लिंक का पालन करें।

  • फ़ाइलों को डाउनलोड करें और निकालें।

  • यदि आप कुछ विकल्पों को अनुकूलित करना चाहते हैं, तो मॉड्यूल / सेटअप फ़ाइल का संपादन ।

  • रन ./configure स्क्रिप्ट

  • make

  • स्थापित करें

यह पायथन को मानक स्थान / usr / स्थानीय / बिन पर और इसके पुस्तकालयों को / usr / स्थानीय / lib / pythonXX पर स्थापित करता है जहां XX Python का संस्करण है।

विंडोज इंस्टॉलेशन

विंडोज मशीन पर पायथन स्थापित करने के लिए इन चरणों का पालन करें।

  • एक वेब ब्राउज़र खोलें और पर जाएं https://www.python.org/downloads

  • Windows इंस्टॉलर python-XYZ .msi फ़ाइल के लिए लिंक का पालन करें जहां XYZ वह संस्करण है जिसे आपको इंस्टॉल करने की आवश्यकता है।

  • इस इंस्टॉलर python-XYZ .msi का उपयोग करने के लिए , विंडोज सिस्टम को Microsoft इंस्टालर 2.0 का समर्थन करना चाहिए। अपने स्थानीय मशीन में इंस्टॉलर फ़ाइल को सहेजें और फिर यह पता लगाने के लिए इसे चलाएं कि क्या आपकी मशीन एमएसआई का समर्थन करती है।

  • डाउनलोड की गई फ़ाइल चलाएँ। यह पायथन स्थापित विज़ार्ड लाता है, जो वास्तव में उपयोग करना आसान है। बस डिफ़ॉल्ट सेटिंग्स को स्वीकार करें और इंस्टॉल समाप्त होने तक प्रतीक्षा करें।

लबादा स्थापना

यदि आप Mac OS X पर हैं, तो यह अनुशंसा की जाती है कि आप Python 3. को स्थापित करने के लिए Homebrew का उपयोग करें। यह Mac OS X के लिए एक बेहतरीन पैकेज इंस्टॉलर है और इसका उपयोग करना वास्तव में आसान है। यदि आपके पास Homebrew नहीं है, तो आप इसे निम्न कमांड का उपयोग करके स्थापित कर सकते हैं -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

हम पैकेज मैनेजर को नीचे कमांड के साथ अपडेट कर सकते हैं -

$ brew update

अब अपने सिस्टम पर Python3 को स्थापित करने के लिए निम्नलिखित कमांड चलाएँ -

$ brew install python3

पथ की स्थापना

प्रोग्राम और अन्य निष्पादन योग्य फाइलें कई निर्देशिकाओं में हो सकती हैं, इसलिए ऑपरेटिंग सिस्टम एक खोज पथ प्रदान करता है जो उन निर्देशिकाओं को सूचीबद्ध करता है जो ओएस निष्पादनयोग्य के लिए खोजता है।

पथ को एक पर्यावरण चर में संग्रहीत किया जाता है, जो ऑपरेटिंग सिस्टम द्वारा बनाए गए एक नामित स्ट्रिंग है। इस चर में कमांड शेल और अन्य कार्यक्रमों के लिए उपलब्ध जानकारी है।

पथ चर को यूनिक्स में पथ का नाम दिया गया है या विंडोज में पथ (यूनिक्स केस-संवेदी है; विंडोज नहीं है)।

मैक ओएस में, इंस्टॉलर पथ विवरण को संभालता है। किसी विशेष निर्देशिका से अजगर दुभाषिया को आमंत्रित करने के लिए, आपको अपने पथ पर पायथन निर्देशिका को जोड़ना होगा।

यूनिक्स / लिनक्स में पथ की स्थापना

यूनिक्स में एक विशेष सत्र के लिए पथ निर्देशिका को जोड़ने के लिए -

  • Csh शेल में

    प्रकार setenv PATH "$PATH:/usr/local/bin/python" और दबाएँ Enter

  • बैश शेल (लिनक्स) में

    प्रकार export ATH = "$PATH:/usr/local/bin/python" और दबाएँ Enter

  • श या कश खोल में

    प्रकार PATH = "$PATH:/usr/local/bin/python" और दबाएँ Enter

Note - / usr / स्थानीय / बिन / अजगर अजगर की निर्देशिका का मार्ग है।

विंडोज पर सेटिंग पथ

विंडोज में एक विशेष सत्र के लिए पथ निर्देशिका को जोड़ने के लिए -

  • At the command prompt - टाइप करें path %path%;C:\Python और दबाएँ Enter

Note - C: \ Python पायथन डायरेक्टरी का मार्ग है।

पायथन चला रहा है

आइए अब हम पायथन को चलाने के विभिन्न तरीकों को देखें। नीचे दिए गए तरीके बताए गए हैं -

इंटरएक्टिव दुभाषिया

हम यूनिक्स, डॉस या किसी अन्य प्रणाली से पायथन शुरू कर सकते हैं जो आपको कमांड-लाइन दुभाषिया या शेल विंडो प्रदान करता है।

  • दर्ज python कमांड लाइन पर।

  • इंटरैक्टिव दुभाषिया में तुरंत कोडिंग शुरू करें।

$python # Unix/Linux

या

python% # Unix/Linux

या

C:> python # Windows/DOS

यहाँ सभी उपलब्ध कमांड लाइन विकल्पों की सूची दी गई है -

क्र.सं. विकल्प और विवरण
1

-d

यह डिबग आउटपुट प्रदान करता है।

2

-o

यह अनुकूलित बायटेकोड उत्पन्न करता है (जिसके परिणामस्वरूप .pyo फ़ाइलें)।

3

-S

स्टार्टअप पर पायथन रास्तों की तलाश के लिए आयात साइट न चलाएं।

4

-v

वर्बोज़ आउटपुट (आयात विवरणों पर विस्तृत ट्रेस)।

5

-x

वर्ग-आधारित अंतर्निहित अपवादों को अक्षम करता है (बस स्ट्रिंग्स का उपयोग करें); संस्करण 1.6 के साथ अप्रचलित।

6

-c cmd

पाइथन स्क्रिप्ट को cmd स्ट्रिंग के रूप में भेजा जाता है।

7

File

दिए गए फ़ाइल से पायथन स्क्रिप्ट चलाएँ।

कमांड-लाइन से स्क्रिप्ट

अपने आवेदन पर दुभाषिया को आमंत्रित करके एक पायथन स्क्रिप्ट को कमांड लाइन पर निष्पादित किया जा सकता है, जैसे कि निम्नलिखित में -

$python script.py # Unix/Linux

या,

python% script.py # Unix/Linux

या,

C:> python script.py # Windows/DOS

Note - सुनिश्चित करें कि फ़ाइल अनुमति मोड निष्पादन की अनुमति देता है।

समन्वित विकास पर्यावरण

यदि आप अपने सिस्टम पर एक GUI अनुप्रयोग है जो Python का समर्थन करता है, तो आप एक ग्राफिकल यूजर इंटरफेस (GUI) वातावरण से Python चला सकते हैं।

  • Unix - पायलटन के लिए IDLE बहुत पहला यूनिक्स IDE है।

  • Windows - PythonWin Python के लिए पहला विंडोज इंटरफ़ेस है और एक GUI के साथ एक IDE है।

  • Macintosh - IDLE IDE के साथ अजगर का मैकिंटोश संस्करण मुख्य वेबसाइट से उपलब्ध है, जो मैकबिनल या बिनहैकेड फाइलों के रूप में डाउनलोड करने योग्य है।

यदि आप पर्यावरण को ठीक से स्थापित करने में सक्षम नहीं हैं, तो आप अपने सिस्टम व्यवस्थापक की मदद ले सकते हैं। सुनिश्चित करें कि पायथन वातावरण ठीक से स्थापित हो और पूरी तरह से ठीक काम कर रहा हो।

हम एनाकोंडा नामक एक और पायथन प्लेटफॉर्म का भी उपयोग कर सकते हैं। इसमें सैकड़ों लोकप्रिय डेटा विज्ञान पैकेज और विंडोज, लिनक्स और मैकओएस के लिए कोंडा पैकेज और आभासी पर्यावरण प्रबंधक शामिल हैं। आप इसे लिंक से अपने ऑपरेटिंग सिस्टम के अनुसार डाउनलोड कर सकते हैंhttps://www.anaconda.com/download/।

इस ट्यूटोरियल के लिए हम एमएस विंडोज पर पायथन 3.6.3 संस्करण का उपयोग कर रहे हैं।

सीखने का अर्थ है अध्ययन या अनुभव के माध्यम से ज्ञान या कौशल का अधिग्रहण। इसके आधार पर, हम मशीन लर्निंग (एमएल) को इस प्रकार परिभाषित कर सकते हैं -

इसे कंप्यूटर विज्ञान के क्षेत्र के रूप में परिभाषित किया जा सकता है, विशेष रूप से कृत्रिम बुद्धिमत्ता का एक अनुप्रयोग, जो कंप्यूटर सिस्टम को स्पष्ट रूप से प्रोग्राम किए बिना डेटा से सीखने और अनुभव से बेहतर बनाने की क्षमता प्रदान करता है।

मूल रूप से, मशीन लर्निंग का मुख्य फोकस कंप्यूटर को मानवीय हस्तक्षेप के बिना स्वचालित रूप से सीखने की अनुमति देना है। अब सवाल यह उठता है कि इस तरह की सीख कैसे शुरू और की जा सकती है? इसे आंकड़ों की टिप्पणियों के साथ शुरू किया जा सकता है। डेटा कुछ उदाहरण, निर्देश या कुछ प्रत्यक्ष अनुभव भी हो सकते हैं। फिर इस इनपुट के आधार पर, मशीन डेटा में कुछ पैटर्न की तलाश करके बेहतर निर्णय लेती है।

मशीन लर्निंग के प्रकार (एमएल)

मशीन लर्निंग एल्गोरिदम स्पष्ट रूप से प्रोग्राम किए बिना कंप्यूटर सिस्टम को सीखने में मदद करता है। इन एल्गोरिदम को देखरेख या अप्रकाशित में वर्गीकृत किया गया है। आइए अब हम कुछ एल्गोरिदम देखें -

सुपरवाइज्ड मशीन लर्निंग एल्गोरिदम

यह सबसे अधिक इस्तेमाल की जाने वाली मशीन लर्निंग एल्गोरिदम है। इसे पर्यवेक्षित कहा जाता है क्योंकि प्रशिक्षण डेटासेट से एल्गोरिथम सीखने की प्रक्रिया को शिक्षण प्रक्रिया की देखरेख करने वाले शिक्षक के रूप में सोचा जा सकता है। इस तरह के एमएल एल्गोरिथ्म में, संभावित परिणामों को पहले से ही जाना जाता है और प्रशिक्षण डेटा को सही उत्तरों के साथ लेबल भी किया जाता है। इसे इस प्रकार समझा जा सकता है -

मान लीजिए हमारे पास इनपुट चर हैं x और एक आउटपुट चर y और हमने इनपुट से आउटपुट तक मैपिंग फ़ंक्शन सीखने के लिए एक एल्गोरिदम लागू किया जैसे -

Y = f(x)

अब, मुख्य लक्ष्य मैपिंग फ़ंक्शन को इतनी अच्छी तरह से अनुमानित करना है कि जब हमारे पास नया इनपुट डेटा (x) हो, तो हम उस डेटा के लिए आउटपुट वेरिएबल (Y) का अनुमान लगा सकते हैं।

मुख्य रूप से पर्यवेक्षित झुकी हुई समस्याओं को निम्नलिखित दो प्रकार की समस्याओं में विभाजित किया जा सकता है -

  • Classification - एक समस्या को वर्गीकरण समस्या कहा जाता है जब हमारे पास "काला", "शिक्षण", "गैर-शिक्षण" आदि जैसे वर्गीकृत आउटपुट होते हैं।

  • Regression - जब हम वास्तविक मूल्य आउटपुट जैसे "दूरी", "किलोग्राम", आदि को समस्या कहते हैं, तो इसे प्रतिगमन समस्या कहा जाता है।

निर्णय वृक्ष, यादृच्छिक वन, knn, लॉजिस्टिक प्रतिगमन पर्यवेक्षित मशीन लर्निंग एल्गोरिदम के उदाहरण हैं।

Unsupervised मशीन लर्निंग एल्गोरिदम

जैसा कि नाम से पता चलता है, इस प्रकार के मशीन लर्निंग एल्गोरिदम में किसी भी प्रकार का मार्गदर्शन प्रदान करने के लिए कोई पर्यवेक्षक नहीं होता है। यही कारण है कि अप्रकाशित मशीन लर्निंग एल्गोरिदम को बारीकी से संरेखित किया जाता है, जिसे कुछ लोग सच्ची कृत्रिम बुद्धि कहते हैं। इसे इस प्रकार समझा जा सकता है -

मान लीजिए कि हमारे पास इनपुट वेरिएबल x है, तो कोई आउटपुट आउटपुट वैरिएबल नहीं होगा जैसा कि पर्यवेक्षित शिक्षण एल्गोरिदम में है।

सरल शब्दों में, हम यह कह सकते हैं कि अनिश्चित सीखने में कोई सही उत्तर नहीं होगा और मार्गदर्शन के लिए कोई शिक्षक नहीं होगा। एल्गोरिदम डेटा में दिलचस्प पैटर्न खोजने में मदद करता है।

अनसुनी सीखने की समस्याओं को निम्नलिखित दो प्रकार की समस्याओं में विभाजित किया जा सकता है -

  • Clustering- क्लस्टरिंग समस्याओं में, हमें डेटा में निहित समूहों की खोज करने की आवश्यकता है। उदाहरण के लिए, ग्राहकों को उनके क्रय व्यवहार द्वारा समूहीकृत करना।

  • Association- एक समस्या को एसोसिएशन समस्या कहा जाता है क्योंकि इस तरह की समस्या के लिए उन नियमों की खोज करने की आवश्यकता होती है जो हमारे डेटा के बड़े हिस्से का वर्णन करते हैं। उदाहरण के लिए, उन ग्राहकों को खोजना जो दोनों खरीदते हैंx तथा y

क्लस्टरिंग के लिए K- साधन, एसोसिएशन के लिए Apriori एल्गोरिथ्म unsupervised मशीन लर्निंग एल्गोरिदम के उदाहरण हैं।

सुदृढीकरण मशीन लर्निंग एल्गोरिदम

इस प्रकार के मशीन लर्निंग एल्गोरिदम का उपयोग बहुत कम किया जाता है। ये एल्गोरिदम विशिष्ट निर्णय लेने के लिए सिस्टम को प्रशिक्षित करते हैं। मूल रूप से, मशीन एक ऐसे वातावरण से अवगत कराया जाता है, जहां वह लगातार परीक्षण और त्रुटि पद्धति का उपयोग करके खुद को प्रशिक्षित करता है। ये एल्गोरिदम पिछले अनुभव से सीखते हैं और सटीक निर्णय लेने के लिए सर्वोत्तम संभव ज्ञान पर कब्जा करने की कोशिश करते हैं। मार्कोव निर्णय प्रक्रिया सुदृढीकरण मशीन लर्निंग एल्गोरिदम का एक उदाहरण है।

अधिकांश सामान्य मशीन लर्निंग एल्गोरिदम

इस खंड में, हम सबसे सामान्य मशीन लर्निंग एल्गोरिदम के बारे में जानेंगे। एल्गोरिदम नीचे वर्णित हैं -

रेखीय प्रतिगमन

यह सांख्यिकी और मशीन सीखने में सबसे प्रसिद्ध एल्गोरिदम में से एक है।

मूल अवधारणा - मुख्य रूप से रैखिक प्रतिगमन एक रैखिक मॉडल है जो इनपुट चर के बीच एक रैखिक संबंध मानता है x और एकल आउटपुट चर कहते हैं y। दूसरे शब्दों में, हम कह सकते हैं कि y की गणना इनपुट चर x के रैखिक संयोजन से की जा सकती है। चरों के बीच के संबंध को एक श्रेष्ठ रेखा के द्वारा स्थापित किया जा सकता है।

रैखिक प्रतिगमन के प्रकार

रैखिक प्रतिगमन निम्नलिखित दो प्रकार के होते हैं -

  • Simple linear regression - एक रेखीय प्रतिगमन एल्गोरिथ्म को सरल रैखिक प्रतिगमन कहा जाता है यदि यह केवल एक स्वतंत्र चर रहा है।

  • Multiple linear regression - एक रेखीय प्रतिगमन एल्गोरिथ्म को एकाधिक रैखिक प्रतिगमन कहा जाता है यदि यह एक से अधिक स्वतंत्र चर रहा है।

रैखिक प्रतिगमन मुख्य रूप से निरंतर चर (ओं) के आधार पर वास्तविक मूल्यों का अनुमान लगाने के लिए उपयोग किया जाता है। उदाहरण के लिए, एक दिन में एक दुकान की कुल बिक्री, वास्तविक मूल्यों के आधार पर, रैखिक प्रतिगमन द्वारा अनुमान लगाया जा सकता है।

रसद प्रतिगमन

यह एक वर्गीकरण एल्गोरिथ्म है और इसे के रूप में भी जाना जाता है logit प्रतिगमन।

मुख्य रूप से लॉजिस्टिक रिग्रेशन एक वर्गीकरण एल्गोरिथ्म है जिसका उपयोग 0 या 1, असत्य या असत्य जैसे मानों का अनुमान लगाने के लिए किया जाता है, स्वतंत्र चर के दिए गए सेट के आधार पर हां या नहीं। मूल रूप से, यह संभावना की भविष्यवाणी करता है इसलिए इसका उत्पादन 0 और 1 के बीच होता है।

निर्णय वृक्ष

डिसीजन ट्री एक पर्यवेक्षित शिक्षण एल्गोरिथ्म है जो ज्यादातर वर्गीकरण समस्याओं के लिए उपयोग किया जाता है।

मूल रूप से यह एक क्लासिफायरियर है जिसे स्वतंत्र चर के आधार पर पुनरावर्ती विभाजन के रूप में व्यक्त किया गया है। निर्णय वृक्ष में नोड्स होते हैं जो जड़ वाले वृक्ष का निर्माण करते हैं। जड़ वाला पेड़ एक सीधा पेड़ है जिसमें "जड़" नामक एक नोड है। रूट में कोई आवक नहीं होती है और अन्य सभी नोड्स में एक आवक होती है। इन नोड्स को पत्तियों या निर्णय नोड्स कहा जाता है। उदाहरण के लिए, निम्नलिखित निर्णय वृक्ष पर विचार करें कि कोई व्यक्ति फिट है या नहीं।

समर्थन वेक्टर मशीन (SVM)

इसका उपयोग वर्गीकरण और प्रतिगमन समस्याओं दोनों के लिए किया जाता है। लेकिन मुख्य रूप से इसका उपयोग वर्गीकरण की समस्याओं के लिए किया जाता है। एसवीएम की मुख्य अवधारणा प्रत्येक डेटा आइटम को एन-डायमेंशनल स्पेस में एक बिंदु के रूप में प्लॉट करना है, जिसमें प्रत्येक फीचर का मूल्य एक विशेष समन्वय का मूल्य है। यहाँ n में वे विशेषताएं होंगी जो हमारे पास होंगी। एसवीएम की अवधारणा को समझने के लिए एक सरल चित्रमय प्रतिनिधित्व निम्नलिखित है -

उपरोक्त आरेख में, हमारे पास दो विशेषताएं हैं इसलिए हमें पहले इन दो चर को दो आयामी अंतरिक्ष में प्लॉट करने की आवश्यकता है जहां प्रत्येक बिंदु में दो सह-निर्देशांक हैं, जिन्हें समर्थन वैक्टर कहा जाता है। लाइन डेटा को दो अलग-अलग वर्गीकृत समूहों में विभाजित करती है। यह लाइन क्लासीफायर होगी।

नावे बे

यह एक वर्गीकरण तकनीक भी है। इस वर्गीकरण तकनीक के पीछे तर्क यह है कि कक्षा के निर्माण के लिए बेयस प्रमेय का उपयोग करना है। धारणा यह है कि भविष्यवक्ता स्वतंत्र होते हैं। सरल शब्दों में, यह मानता है कि किसी वर्ग में किसी विशेष सुविधा की उपस्थिति किसी अन्य सुविधा की उपस्थिति से संबंधित नहीं है। नीचे बेयस प्रमेय के लिए समीकरण है -

$ $ P \ बाएँ (\ frac {A} {B} \ right) = \ frac {P \ बाएँ (\ frac {B} {A} \ दाएँ) P \ बाएँ (A \ दाएँ)} {P \ बाएँ ( B \ right)} $ $

Na Theve Bayes मॉडल बनाना और विशेष रूप से बड़े डेटा सेट के लिए उपयोगी है।

K- निकटतम पड़ोसी (KNN)

इसका उपयोग समस्याओं के वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। वर्गीकरण समस्याओं को हल करने के लिए इसका व्यापक रूप से उपयोग किया जाता है। इस एल्गोरिथ्म की मुख्य अवधारणा यह है कि यह सभी उपलब्ध मामलों को संग्रहीत करता था और अपने के पड़ोसियों के बहुमत वोटों द्वारा नए मामलों को वर्गीकृत करता था। तब मामला उस वर्ग को सौंपा जाता है, जो अपने K-निकटतम पड़ोसियों में सबसे आम है, जिसे एक दूरी फ़ंक्शन द्वारा मापा जाता है। दूरी समारोह यूक्लिडियन, मिंकोवस्की और हैमिंग दूरी हो सकती है। KNN का उपयोग करने के लिए निम्नलिखित पर विचार करें -

  • कम्प्यूटेशनल रूप से KNN वर्गीकरण समस्याओं के लिए उपयोग किए जाने वाले अन्य एल्गोरिदम की तुलना में महंगे हैं।

  • चर के सामान्यीकरण की जरूरत है अन्यथा उच्च श्रेणी के चर इसे पूर्वाग्रह कर सकते हैं।

  • KNN में, हमें शोर को हटाने जैसे पूर्व-प्रसंस्करण चरण पर काम करने की आवश्यकता है।

K- मीन्स क्लस्टरिंग

जैसा कि नाम से पता चलता है, इसका उपयोग क्लस्टरिंग समस्याओं को हल करने के लिए किया जाता है। यह मूल रूप से एक प्रकार का अप्रशिक्षित अधिगम है। K-Means क्लस्टरिंग एल्गोरिथ्म का मुख्य तर्क कई समूहों के माध्यम से निर्धारित डेटा को वर्गीकृत करना है। K- साधनों द्वारा क्लस्टर बनाने के लिए इन चरणों का पालन करें -

  • K-mean सेंट्रोइड्स के रूप में ज्ञात प्रत्येक क्लस्टर के लिए k संख्याओं का चयन करता है।

  • अब प्रत्येक डेटा पॉइंट निकटतम सेंट्रोइड्स के साथ एक क्लस्टर बनाता है, अर्थात, k क्लस्टर।

  • अब, यह मौजूदा क्लस्टर सदस्यों के आधार पर प्रत्येक क्लस्टर के केन्द्रक को खोजेगा।

  • जब तक अभिसरण नहीं होता है तब तक हमें इन चरणों को दोहराने की आवश्यकता है

बेतरतीब जंगल

यह एक पर्यवेक्षित वर्गीकरण एल्गोरिथ्म है। यादृच्छिक वन एल्गोरिथ्म का लाभ यह है कि इसका उपयोग वर्गीकरण और प्रतिगमन दोनों प्रकार की समस्याओं के लिए किया जा सकता है। मूल रूप से यह निर्णय पेड़ों (यानी, वन) का संग्रह है या आप निर्णय पेड़ों का पहनावा कह सकते हैं। यादृच्छिक वन की मूल अवधारणा यह है कि प्रत्येक पेड़ एक वर्गीकरण देता है और वन उनसे सर्वश्रेष्ठ वर्गीकरण चुनता है। अनुवर्ती रैंडम फ़ॉरेस्ट एल्गोरिथ्म के फायदे हैं -

  • यादृच्छिक वन वर्गीकरण का उपयोग वर्गीकरण और प्रतिगमन कार्यों दोनों के लिए किया जा सकता है।

  • वे लापता मूल्यों को संभाल सकते हैं।

  • भले ही हमारे पास जंगल में अधिक संख्या में पेड़ हों, यह मॉडल पर नहीं बैठेगा।

हमने पहले से ही पर्यवेक्षित होने के साथ-साथ अनुपयोगी मशीन लर्निंग एल्गोरिदम का अध्ययन किया है। इन एल्गोरिदम को प्रशिक्षण प्रक्रिया शुरू करने के लिए स्वरूपित डेटा की आवश्यकता होती है। हमें डेटा को एक निश्चित तरीके से तैयार या प्रारूपित करना चाहिए ताकि उसे एमएल एल्गोरिदम के इनपुट के रूप में आपूर्ति की जा सके।

यह अध्याय मशीन लर्निंग एल्गोरिदम के लिए डेटा तैयार करने पर केंद्रित है।

डेटा को रोकना

अपने दैनिक जीवन में, हम बहुत सारे डेटा से निपटते हैं लेकिन यह डेटा कच्चे रूप में है। मशीन लर्निंग एल्गोरिदम के इनपुट के रूप में डेटा प्रदान करने के लिए, हमें इसे एक सार्थक डेटा में बदलने की आवश्यकता है। यह वह जगह है जहाँ डेटा प्रीप्रोसेसिंग तस्वीर में आता है। दूसरे सरल शब्दों में, हम कह सकते हैं कि मशीन लर्निंग एल्गोरिदम को डेटा प्रदान करने से पहले हमें डेटा को प्रीप्रोसेस करना होगा।

डेटा प्रीप्रोसेसिंग चरण

पायथन में डेटा को प्रीप्रोसेस करने के लिए इन चरणों का पालन करें -

Step 1 − Importing the useful packages - अगर हम पायथन का उपयोग कर रहे हैं तो यह डेटा को एक निश्चित प्रारूप में बदलने के लिए पहला कदम होगा, यानी प्रीप्रोसेसिंग। इसे निम्नानुसार किया जा सकता है -

import numpy as np
import sklearn.preprocessing

यहां हमने निम्नलिखित दो पैकेजों का उपयोग किया है -

  • NumPy मूल रूप से NumPy एक सामान्य उद्देश्य सरणी-प्रसंस्करण पैकेज है जिसे छोटे बहु-आयामी सरणियों के लिए बहुत अधिक गति का त्याग किए बिना मनमाने रिकॉर्ड के बड़े बहुआयामी सरणियों को कुशलतापूर्वक हेरफेर करने के लिए डिज़ाइन किया गया है।

  • Sklearn.preprocessing - यह पैकेज कच्चे फीचर वैक्टर को एक प्रतिनिधित्व में बदलने के लिए कई सामान्य उपयोगिता फ़ंक्शन और ट्रांसफार्मर कक्षाएं प्रदान करता है जो मशीन लर्निंग एल्गोरिदम के लिए अधिक उपयुक्त है।

Step 2 − Defining sample data - पैकेजों को आयात करने के बाद, हमें कुछ नमूना डेटा को परिभाषित करने की आवश्यकता है ताकि हम उस डेटा पर प्रीप्रोसेसिंग तकनीकों को लागू कर सकें। अब हम निम्नलिखित नमूना डेटा को परिभाषित करेंगे -

input_data = np.array([2.1, -1.9, 5.5],
                      [-1.5, 2.4, 3.5],
                      [0.5, -7.9, 5.6],
                      [5.9, 2.3, -5.8])

Step3 − Applying preprocessing technique - इस चरण में, हमें किसी भी प्रीप्रोसेसिंग तकनीक को लागू करने की आवश्यकता है।

निम्न अनुभाग डेटा प्रीप्रोसेसिंग तकनीकों का वर्णन करता है।

डेटा प्रीप्रोसेसिंग के लिए तकनीक

डेटा प्रीप्रोसेसिंग की तकनीकें नीचे वर्णित हैं -

binarization

यह प्रीप्रोसेसिंग तकनीक है जिसका उपयोग तब किया जाता है जब हमें अपने संख्यात्मक मूल्यों को बूलियन मूल्यों में बदलने की आवश्यकता होती है। हम निम्न तरीके से थ्रेशोल्ड मान के रूप में 0.5 का उपयोग करके इनपुट डेटा को बायनेरिज़ करने के लिए एक इनबिल्ट विधि का उपयोग कर सकते हैं -

data_binarized = preprocessing.Binarizer(threshold = 0.5).transform(input_data)
print("\nBinarized data:\n", data_binarized)

अब, उपरोक्त कोड को चलाने के बाद, हम निम्नलिखित आउटपुट प्राप्त करेंगे, 0.5 (थ्रेशोल्ड वैल्यू) से ऊपर के सभी मान 1 में बदल जाएंगे और 0.5 से नीचे के सभी मान 0 में परिवर्तित हो जाएंगे।

Binarized data

[[ 1. 0. 1.]
[ 0. 1. 1.]
[ 0. 0. 1.]
[ 1. 1. 0.]]

मतलब निकालना

यह एक और बहुत ही सामान्य प्रीप्रोसेसिंग तकनीक है जिसका उपयोग मशीन लर्निंग में किया जाता है। मूल रूप से इसका उपयोग फीचर वेक्टर से माध्य को खत्म करने के लिए किया जाता है ताकि हर सुविधा शून्य पर केंद्रित हो। हम फीचर वेक्टर में सुविधाओं से पूर्वाग्रह को भी हटा सकते हैं। नमूना डेटा पर मीनिंग रिमूवल प्रीप्रोसेसिंग तकनीक को लागू करने के लिए, हम नीचे दिखाए गए पायथन कोड को लिख सकते हैं। कोड इनपुट डेटा के माध्य और मानक विचलन को प्रदर्शित करेगा -

print("Mean = ", input_data.mean(axis = 0))
print("Std deviation = ", input_data.std(axis = 0))

कोड की उपरोक्त लाइनों को चलाने के बाद हमें निम्नलिखित आउटपुट मिलेंगे -

Mean = [ 1.75       -1.275       2.2]
Std deviation = [ 2.71431391  4.20022321  4.69414529]

अब, नीचे दिया गया कोड इनपुट डेटा के माध्य और मानक विचलन को हटा देगा -

data_scaled = preprocessing.scale(input_data)
print("Mean =", data_scaled.mean(axis=0))
print("Std deviation =", data_scaled.std(axis = 0))

कोड की उपरोक्त लाइनों को चलाने के बाद हमें निम्नलिखित आउटपुट मिलेंगे -

Mean = [ 1.11022302e-16 0.00000000e+00 0.00000000e+00]
Std deviation = [ 1.             1.             1.]

स्केलिंग

यह एक और डेटा प्रीप्रोसेसिंग तकनीक है जिसका उपयोग फीचर वैक्टर को स्केल करने के लिए किया जाता है। फीचर वैक्टर की स्केलिंग की आवश्यकता है क्योंकि हर सुविधा के मान कई यादृच्छिक मूल्यों के बीच भिन्न हो सकते हैं। दूसरे शब्दों में हम कह सकते हैं कि स्केलिंग महत्वपूर्ण है क्योंकि हम नहीं चाहते कि कोई भी सुविधा वाक्यगत रूप से बड़ी या छोटी हो। निम्नलिखित पायथन कोड की मदद से, हम अपने इनपुट डेटा की स्केलिंग कर सकते हैं, अर्थात, वेक्टर सुविधा -

# Min max scaling

data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nMin max scaled data:\n", data_scaled_minmax)

कोड की उपरोक्त लाइनों को चलाने के बाद हमें निम्नलिखित आउटपुट मिलेंगे -

Min max scaled data

[ [ 0.48648649  0.58252427   0.99122807]
[   0.          1.           0.81578947]
[   0.27027027  0.           1.        ]
[   1.          0. 99029126  0.        ]]

मानकीकरण

यह एक अन्य डेटा प्रीप्रोसेसिंग तकनीक है जिसका उपयोग फीचर वैक्टर को संशोधित करने के लिए किया जाता है। एक सामान्य पैमाने पर फीचर वैक्टर को मापने के लिए इस तरह का संशोधन आवश्यक है। अनुगमन सामान्यीकरण के दो प्रकार हैं जिनका उपयोग मशीन लर्निंग में किया जा सकता है -

L1 Normalization

इसे भी कहा जाता है Least Absolute Deviations। इस तरह का सामान्यीकरण मूल्यों को संशोधित करता है ताकि प्रत्येक पंक्ति में पूर्ण मूल्यों का योग हमेशा 1 तक हो। इसे निम्नलिखित पायथन कोड की मदद से इनपुट डेटा पर लागू किया जा सकता है -

# Normalize data
data_normalized_l1 = preprocessing.normalize(input_data, norm = 'l1')
print("\nL1 normalized data:\n", data_normalized_l1)

कोड की उपरोक्त पंक्ति निम्नलिखित आउटपुट और miuns उत्पन्न करती है;

L1 normalized data:
[[ 0.22105263  -0.2          0.57894737]
[ -0.2027027    0.32432432   0.47297297]
[  0.03571429  -0.56428571   0.4       ]
[  0.42142857   0.16428571  -0.41428571]]

L2 Normalization

इसे भी कहा जाता है least squares। इस तरह का सामान्यीकरण मूल्यों को संशोधित करता है ताकि वर्गों का योग हमेशा प्रत्येक पंक्ति में 1 तक हो। इसे निम्नलिखित पायथन कोड की मदद से इनपुट डेटा पर लागू किया जा सकता है -

# Normalize data
data_normalized_l2 = preprocessing.normalize(input_data, norm = 'l2')
print("\nL2 normalized data:\n", data_normalized_l2)

कोड की उपरोक्त लाइन निम्नलिखित आउटपुट उत्पन्न करेगी -

L2 normalized data:
[[ 0.33946114  -0.30713151   0.88906489]
[ -0.33325106   0.53320169   0.7775858 ]
[  0.05156558  -0.81473612   0.57753446]
[  0.68706914   0.26784051  -0.6754239 ]]

डेटा लेबल करना

हम पहले से ही जानते हैं कि मशीन लर्निंग एल्गोरिदम के लिए एक निश्चित प्रारूप में डेटा आवश्यक है। एक और महत्वपूर्ण आवश्यकता यह है कि डेटा को मशीन लर्निंग एल्गोरिदम के इनपुट के रूप में भेजने से पहले ठीक से लेबल किया जाना चाहिए। उदाहरण के लिए, अगर हम वर्गीकरण के बारे में बात करते हैं, तो डेटा पर बहुत सारे लेबल हैं। वे लेबल शब्द, संख्या, आदि के रूप में हैं। मशीन सीखने से संबंधित कार्यsklearnउम्मीद है कि डेटा में नंबर लेबल होना चाहिए। इसलिए, यदि डेटा अन्य रूप में है, तो उसे संख्याओं में परिवर्तित किया जाना चाहिए। शब्द लेबल को संख्यात्मक रूप में बदलने की इस प्रक्रिया को लेबल एन्कोडिंग कहा जाता है।

लेबल एन्कोडिंग चरण

पायथन में डेटा लेबल एन्कोडिंग के लिए इन चरणों का पालन करें -

Step1 − Importing the useful packages

यदि हम पायथन का उपयोग कर रहे हैं तो यह डेटा को कुछ निश्चित प्रारूप में बदलने के लिए पहला कदम होगा, अर्थात प्रीप्रोसेसिंग। इसे निम्नानुसार किया जा सकता है -

import numpy as np
from sklearn import preprocessing

Step 2 − Defining sample labels

पैकेजों को आयात करने के बाद, हमें कुछ नमूना लेबल परिभाषित करने की आवश्यकता है ताकि हम लेबल एनकोडर को बना और प्रशिक्षित कर सकें। अब हम निम्नलिखित नमूना लेबल परिभाषित करेंगे -

# Sample input labels
input_labels = ['red','black','red','green','black','yellow','white']

Step 3 − Creating & training of label encoder object

इस चरण में, हमें लेबल एनकोडर बनाने और इसे प्रशिक्षित करने की आवश्यकता है। निम्नलिखित पायथन कोड ऐसा करने में मदद करेगा -

# Creating the label encoder
encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)

उपरोक्त पायथन कोड चलाने के बाद आउटपुट होगा -

LabelEncoder()

Step4 − Checking the performance by encoding random ordered list

इस चरण का उपयोग यादृच्छिक क्रम वाली सूची को एन्कोडिंग करके प्रदर्शन की जांच करने के लिए किया जा सकता है। पायथन कोड के बाद ऐसा करने के लिए लिखा जा सकता है -

# encoding a set of labels
test_labels = ['green','red','black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)

लेबल निम्नानुसार मुद्रित होंगे -

Labels = ['green', 'red', 'black']

अब, हम एन्कोड किए गए मानों की सूची प्राप्त कर सकते हैं अर्थात संख्याओं में परिवर्तित शब्द लेबल -

print("Encoded values =", list(encoded_values))

एन्कोडेड मान निम्नानुसार मुद्रित हो जाएंगे -

Encoded values = [1, 2, 0]

Step 5 − Checking the performance by decoding a random set of numbers −

इस चरण का उपयोग संख्याओं के यादृच्छिक सेट को डिकोड करके प्रदर्शन की जांच करने के लिए किया जा सकता है। पायथन कोड के बाद ऐसा करने के लिए लिखा जा सकता है -

# decoding a set of values
encoded_values = [3,0,4,1]
decoded_list = encoder.inverse_transform(encoded_values)
print("\nEncoded values =", encoded_values)

अब, एन्कोडेड मान निम्नानुसार मुद्रित हो जाएंगे -

Encoded values = [3, 0, 4, 1]
print("\nDecoded labels =", list(decoded_list))

अब, डीकोड किए गए मान निम्नानुसार प्रिंट हो जाएंगे -

Decoded labels = ['white', 'black', 'yellow', 'green']

लेबल किया गया v / s अनलिस्टेड डेटा

बिना लेबल के डेटा में मुख्य रूप से प्राकृतिक या मानव निर्मित वस्तु के नमूने होते हैं जो आसानी से दुनिया से प्राप्त किए जा सकते हैं। उनमें ऑडियो, वीडियो, फोटो, समाचार लेख आदि शामिल हैं।

दूसरी ओर, लेबल किया गया डेटा अनलिस्टेड डेटा का एक सेट लेता है और उस टैग किए गए डेटा के प्रत्येक टुकड़े को कुछ टैग या लेबल या वर्ग के साथ संवर्धित करता है जो अर्थपूर्ण है। उदाहरण के लिए, अगर हमारे पास एक फोटो है तो फोटो की सामग्री के आधार पर लेबल लगाया जा सकता है, अर्थात यह एक लड़के या लड़की या जानवर या अन्य किसी की फोटो है। डेटा को लेबल करने के लिए मानव रहित विशेषज्ञता या निर्णय के बारे में जानकारी दी गई है।

ऐसे कई परिदृश्य हैं जहाँ गैर-सूचीबद्ध डेटा बहुतायत से और आसानी से प्राप्त होते हैं लेकिन लेबल किए गए डेटा को अक्सर एनोटेट करने के लिए मानव / विशेषज्ञ की आवश्यकता होती है। अर्ध-पर्यवेक्षित शिक्षण बेहतर मॉडल बनाने के लिए लेबल और गैर-लेबल डेटा को संयोजित करने का प्रयास करता है।

इस अध्याय में, हम पर्यवेक्षित शिक्षण - वर्गीकरण को लागू करने पर ध्यान केंद्रित करेंगे।

वर्गीकरण तकनीक या मॉडल देखे गए मूल्यों से कुछ निष्कर्ष निकालने का प्रयास करता है। वर्गीकरण समस्या में, हमारे पास "ब्लैक" या "व्हाइट" या "टीचिंग" और "नॉन-टीचिंग" जैसे वर्गीकृत आउटपुट हैं। वर्गीकरण मॉडल का निर्माण करते समय, हमें प्रशिक्षण डेटासेट और संबंधित लेबल वाले डेटासेट्स की आवश्यकता होती है। उदाहरण के लिए, यदि हम यह जांचना चाहते हैं कि छवि कार की है या नहीं। इसकी जाँच के लिए, हम "कार" और "नो कार" से संबंधित दो वर्गों वाले एक प्रशिक्षण डेटासेट का निर्माण करेंगे। फिर हमें प्रशिक्षण के नमूनों का उपयोग करके मॉडल को प्रशिक्षित करने की आवश्यकता है। वर्गीकरण मॉडल का उपयोग मुख्य रूप से चेहरे की पहचान, स्पैम पहचान आदि में किया जाता है।

पायथन में एक क्लासिफायरियर बनाने के लिए कदम

पायथन में एक क्लासिफायरियर बनाने के लिए, हम पायथन 3 और स्किकिट-लर्न का उपयोग करने जा रहे हैं, जो मशीन लर्निंग का एक उपकरण है। पायथन में एक क्लासिफायरियर बनाने के लिए इन चरणों का पालन करें -

चरण 1 - आयात स्किट-सीखें

पायथन में क्लासिफायर बनाने के लिए यह पहला कदम होगा। इस चरण में, हम स्किकिट-सीख नामक पायथन पैकेज स्थापित करेंगे जो कि पायथन में सर्वश्रेष्ठ मशीन लर्निंग मॉड्यूल में से एक है। निम्न आदेश हमें पैकेज को आयात करने में मदद करेगा -

Import Sklearn

चरण 2 - आयात Scitit- जानें के डाटासेट

इस चरण में, हम अपने मशीन लर्निंग मॉडल के लिए डेटासेट के साथ काम करना शुरू कर सकते हैं। यहां, हम उपयोग करने जा रहे हैंthe स्तन कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस। डेटासेट में स्तन कैंसर के ट्यूमर के साथ-साथ वर्गीकरण लेबल के बारे में विभिन्न जानकारी शामिल हैmalignant या benign। डेटासेट में 569 ट्यूमर हैं, या 569 ट्यूमर पर डेटा, और 30 विशेषताओं, या विशेषताओं, जैसे कि ट्यूमर, बनावट, चिकनाई और क्षेत्र की जानकारी शामिल है। निम्नलिखित कमांड की सहायता से, हम स्किकिट-लर्न के स्तन कैंसर डेटासेट आयात कर सकते हैं -

from sklearn.datasets import load_breast_cancer

अब, निम्न कमांड डाटासेट लोड करेगा।

data = load_breast_cancer()

निम्नलिखित महत्वपूर्ण शब्दकोश कुंजियों की एक सूची है -

  • वर्गीकरण लेबल नाम (target_names)
  • वास्तविक लेबल (लक्ष्य)
  • विशेषता / सुविधा नाम (feature_names)
  • विशेषता (डेटा)

अब, निम्नलिखित कमांड की मदद से, हम सूचना के प्रत्येक महत्वपूर्ण सेट के लिए नए चर बना सकते हैं और डेटा असाइन कर सकते हैं। दूसरे शब्दों में, हम निम्नलिखित कमांड के साथ डेटा को व्यवस्थित कर सकते हैं -

label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']

अब, यह स्पष्ट करने के लिए कि हम क्लास लेबल, पहले डेटा इंस्टेंस लेबल, हमारे फीचर नाम और फीचर की वैल्यू निम्न कमांड की मदद से प्रिंट कर सकते हैं -

print(label_names)

उपरोक्त आदेश उन वर्ग नामों को प्रिंट करेगा जो क्रमशः घातक और सौम्य हैं। इसे नीचे दिए गए आउटपुट के रूप में दिखाया गया है -

['malignant' 'benign']

अब, नीचे दिए गए आदेश से पता चलेगा कि उन्हें बाइनरी मान 0 और 1 के लिए मैप किया गया है। यहां 0 घातक कैंसर का प्रतिनिधित्व करता है और 1 सौम्य कैंसर का प्रतिनिधित्व करता है। आपको निम्न आउटपुट प्राप्त होंगे -

print(labels[0])
0

नीचे दिए गए दो कमांड फीचर नाम और फीचर वैल्यू का उत्पादन करेंगे।

print(feature_names[0])
mean radius
print(features[0])
[ 1.79900000e+01 1.03800000e+01 1.22800000e+02 1.00100000e+03
  1.18400000e-01 2.77600000e-01 3.00100000e-01 1.47100000e-01
  2.41900000e-01 7.87100000e-02 1.09500000e+00 9.05300000e-01
  8.58900000e+00 1.53400000e+02 6.39900000e-03 4.90400000e-02
  5.37300000e-02 1.58700000e-02 3.00300000e-02 6.19300000e-03
  2.53800000e+01 1.73300000e+01 1.84600000e+02 2.01900000e+03
  1.62200000e-01 6.65600000e-01 7.11900000e-01 2.65400000e-01
  4.60100000e-01 1.18900000e-01]

उपरोक्त आउटपुट से, हम देख सकते हैं कि पहला डेटा उदाहरण एक घातक ट्यूमर है जिसका त्रिज्या 1.7990000e + 01 है।

चरण 3 - डेटा को सेट में व्यवस्थित करना

इस चरण में, हम अपने डेटा को दो भागों में विभाजित करेंगे, अर्थात् एक प्रशिक्षण सेट और एक परीक्षण सेट। इन सेटों में डेटा को विभाजित करना बहुत महत्वपूर्ण है क्योंकि हमें अपने मॉडल का अनदेखी डेटा पर परीक्षण करना होगा। डेटा को सेट में विभाजित करने के लिए, स्केलेरन में एक फ़ंक्शन होता है जिसे कहा जाता हैtrain_test_split()समारोह। निम्नलिखित आदेशों की मदद से, हम इन सेटों में डेटा को विभाजित कर सकते हैं -

from sklearn.model_selection import train_test_split

उपरोक्त आदेश आयात करेगा train_test_splitस्केलेरन से फ़ंक्शन और नीचे दिए गए आदेश डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करेंगे। नीचे दिए गए उदाहरण में, हम परीक्षण के लिए 40% डेटा का उपयोग कर रहे हैं और शेष डेटा का उपयोग मॉडल के प्रशिक्षण के लिए किया जाएगा।

train, test, train_labels, test_labels = train_test_split(features,labels,test_size = 0.40, random_state = 42)

चरण 4 - मॉडल का निर्माण

इस चरण में, हम अपने मॉडल का निर्माण करेंगे। हम मॉडल के निर्माण के लिए Naïve Bayes एल्गोरिदम का उपयोग करने जा रहे हैं। मॉडल बनाने के लिए निम्न आदेशों का उपयोग किया जा सकता है -

from sklearn.naive_bayes import GaussianNB

उपरोक्त कमांड गाऊसीएनबी मॉड्यूल का आयात करेगा। अब, निम्न कमांड आपको मॉडल को इनिशियलाइज़ करने में मदद करेगी।

gnb = GaussianNB()

हम gnb.fit () का उपयोग करके इसे डेटा में फिट करके मॉडल को प्रशिक्षित करेंगे।

model = gnb.fit(train, train_labels)

चरण 5 - मॉडल और इसकी सटीकता का मूल्यांकन

इस चरण में, हम अपने परीक्षण डेटा पर भविष्यवाणियां करके मॉडल का मूल्यांकन करने जा रहे हैं। तब हमें इसकी सटीकता का भी पता चल जाएगा। पूर्वानुमान बनाने के लिए, हम पूर्वानुमान () फ़ंक्शन का उपयोग करेंगे। निम्नलिखित कमांड आपको ऐसा करने में मदद करेगी -

preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 
 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 0 0 0 0 
 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0 0 0 
 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 
 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 
 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 
 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 1]

0s और 1s की उपरोक्त श्रृंखला ट्यूमर वर्गों के लिए अनुमानित मूल्य हैं - घातक और सौम्य।

अब, दो सरणियों की तुलना करके अर्थात् test_labels तथा preds, हम अपने मॉडल की सटीकता का पता लगा सकते हैं। हम उपयोग करने जा रहे हैंaccuracy_score()सटीकता निर्धारित करने के लिए कार्य करते हैं। इसके लिए निम्नलिखित कमांड पर विचार करें -

from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels,preds))
0.951754385965

परिणाम से पता चलता है कि NaïveBayes क्लासिफायरियर 95.17% सटीक है।

इस तरह, उपरोक्त चरणों की मदद से हम पायथन में अपने क्लासिफायरियर का निर्माण कर सकते हैं।

पायथन में बिल्डिंग क्लासिफायरियर

इस खंड में, हम सीखेंगे कि पायथन में एक क्लासिफायरियर कैसे बनाया जाए।

नाओवे बेयस क्लासिफायर

नाओवे बेयस एक वर्गीकरण तकनीक है जिसका उपयोग बेयस प्रमेय का उपयोग करके क्लासिफायर बनाने के लिए किया जाता है। धारणा यह है कि भविष्यवक्ता स्वतंत्र होते हैं। सरल शब्दों में, यह मानता है कि किसी वर्ग में किसी विशेष सुविधा की उपस्थिति किसी अन्य सुविधा की उपस्थिति से संबंधित नहीं है। नाओवे बेएस क्लासिफायर के निर्माण के लिए हमें स्किटिट लर्न नामक अजगर पुस्तकालय का उपयोग करने की आवश्यकता है। नाओवे बेयस मॉडल के तीन प्रकार हैंGaussian, Multinomial and Bernoulli पैकेज के तहत सीखो।

Na buildve Bayes मशीन लर्निंग क्लासिफायर मॉडल बनाने के लिए, हमें निम्नलिखित और माइनस की आवश्यकता है

डेटासेट

हम स्तन कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस नाम के डेटासेट का उपयोग करने जा रहे हैं । डेटासेट में स्तन कैंसर के ट्यूमर के साथ-साथ वर्गीकरण लेबल के बारे में विभिन्न जानकारी शामिल हैmalignant या benign। डेटासेट में 569 ट्यूमर हैं, या 569 ट्यूमर पर डेटा, और 30 विशेषताओं, या विशेषताओं, जैसे कि ट्यूमर, बनावट, चिकनाई और क्षेत्र की जानकारी शामिल है। हम स्केलेर पैकेज से इस डेटासेट को आयात कर सकते हैं।

नाओवे बेयस मॉडल

Na ave Bayes क्लासिफायर बनाने के लिए, हमें Naïve Bayes मॉडल की आवश्यकता है। जैसा कि पहले बताया गया है, तीन प्रकार के नाओवे बेयस मॉडल हैंGaussian, Multinomial तथा Bernoulliपैकेज के तहत सीखो। यहाँ, निम्नलिखित उदाहरण में हम गाऊसी नाओवे बेव मॉडल का उपयोग करने जा रहे हैं।

उपरोक्त का उपयोग करके, हम ट्यूमर जानकारी घातक या सौम्य है या नहीं यह अनुमान लगाने के लिए ट्यूमर की जानकारी का उपयोग करने के लिए Na Bayve Bayes मशीन लर्निंग मॉडल बनाने जा रहे हैं।

के साथ शुरू करने के लिए, हमें स्केलेरन मॉड्यूल को स्थापित करने की आवश्यकता है। यह निम्नलिखित कमांड की मदद से किया जा सकता है -

Import Sklearn

अब, हमें ब्रेस्ट कैंसर विस्कॉन्सिन डायग्नोस्टिक डेटाबेस नाम के डेटासेट को आयात करना होगा।

from sklearn.datasets import load_breast_cancer

अब, निम्न कमांड डाटासेट लोड करेगा।

data = load_breast_cancer()

डेटा को निम्नानुसार व्यवस्थित किया जा सकता है -

label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']

अब, यह स्पष्ट करने के लिए कि हम क्लास लेबल, पहले डेटा इंस्टेंस लेबल, हमारे फीचर नाम और फीचर की वैल्यू निम्नलिखित कमांड की मदद से प्रिंट कर सकते हैं -

print(label_names)

उपरोक्त आदेश उन वर्ग नामों को प्रिंट करेगा जो क्रमशः घातक और सौम्य हैं। इसे नीचे दिए गए आउटपुट के रूप में दिखाया गया है -

['malignant' 'benign']

अब, नीचे दी गई कमांड से पता चलेगा कि उन्हें बाइनरी मान 0 और 1. में मैप किया गया है। यहाँ 0 घातक कैंसर का प्रतिनिधित्व करता है और 1 सौम्य कैंसर का प्रतिनिधित्व करता है। इसे नीचे दिए गए आउटपुट के रूप में दिखाया गया है -

print(labels[0])
0

निम्नलिखित दो कमांड फीचर नाम और फीचर वैल्यू तैयार करेंगे।

print(feature_names[0])
mean radius
print(features[0])

[ 1.79900000e+01 1.03800000e+01 1.22800000e+02 1.00100000e+03
  1.18400000e-01 2.77600000e-01 3.00100000e-01 1.47100000e-01
  2.41900000e-01 7.87100000e-02 1.09500000e+00 9.05300000e-01
  8.58900000e+00 1.53400000e+02 6.39900000e-03 4.90400000e-02
  5.37300000e-02 1.58700000e-02 3.00300000e-02 6.19300000e-03
  2.53800000e+01 1.73300000e+01 1.84600000e+02 2.01900000e+03
  1.62200000e-01 6.65600000e-01 7.11900000e-01 2.65400000e-01
  4.60100000e-01 1.18900000e-01]

उपरोक्त आउटपुट से, हम देख सकते हैं कि पहला डेटा उदाहरण एक घातक ट्यूमर है जिसका मुख्य त्रिज्या 1.7990000e + 01 है।

अनदेखी मॉडल पर हमारे मॉडल का परीक्षण करने के लिए, हमें अपने डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करना होगा। यह निम्नलिखित कोड की मदद से किया जा सकता है -

from sklearn.model_selection import train_test_split

उपरोक्त आदेश आयात करेगा train_test_splitस्केलेरन से फ़ंक्शन और नीचे दिए गए आदेश डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करेंगे। नीचे दिए गए उदाहरण में, हम परीक्षण के लिए 40% डेटा का उपयोग कर रहे हैं और मॉडल को प्रशिक्षित करने के लिए रीमाइनिंग डेटा का उपयोग किया जाएगा।

train, test, train_labels, test_labels = 
train_test_split(features,labels,test_size = 0.40, random_state = 42)

अब, हम निम्नलिखित कमांड के साथ मॉडल बना रहे हैं -

from sklearn.naive_bayes import GaussianNB

उपरोक्त आदेश आयात करेगा GaussianNBमापांक। अब, नीचे दी गई कमांड के साथ, हमें मॉडल को इनिशियलाइज़ करना होगा।

gnb = GaussianNB()

हम मॉडल का उपयोग करके इसे डेटा को फिटिंग करके प्रशिक्षित करेंगे gnb.fit()

model = gnb.fit(train, train_labels)

अब, परीक्षण डेटा पर भविष्यवाणी करके मॉडल का मूल्यांकन करें और इसे निम्नानुसार किया जा सकता है -

preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 
 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 0 0 0 0 
 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0 0 0 
 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 
 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 
 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 
 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 1]

0s और 1s की उपरोक्त श्रृंखला ट्यूमर वर्गों अर्थात घातक और सौम्य के लिए अनुमानित मूल्य हैं।

अब, दो सरणियों की तुलना करके अर्थात् test_labels तथा preds, हम अपने मॉडल की सटीकता का पता लगा सकते हैं। हम उपयोग करने जा रहे हैंaccuracy_score()सटीकता निर्धारित करने के लिए कार्य करते हैं। निम्नलिखित कमांड पर विचार करें -

from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels,preds))
0.951754385965

परिणाम से पता चलता है कि Na resultveBayes क्लासिफायरियर 95.17% सटीक है।

यह मशीन सीखने का क्लासिफायर Naïve बेय गॉसियन मॉडल पर आधारित था।

वेक्टर मशीनों का समर्थन (SVM)

मूल रूप से, सपोर्ट वेक्टर मशीन (SVM) एक पर्यवेक्षित मशीन लर्निंग एल्गोरिथम है, जिसका उपयोग प्रतिगमन और वर्गीकरण दोनों के लिए किया जा सकता है। एसवीएम की मुख्य अवधारणा प्रत्येक डेटा आइटम को एन-डायमेंशनल स्पेस में एक बिंदु के रूप में प्लॉट करना है, जिसमें प्रत्येक फीचर का मूल्य एक विशेष समन्वय का मूल्य है। यहाँ n में वे विशेषताएं होंगी जो हमारे पास होंगी। एसवीएम की अवधारणा को समझने के लिए एक सरल चित्रमय प्रतिनिधित्व निम्नलिखित है -

उपरोक्त आरेख में, हमारे पास दो विशेषताएं हैं। इसलिए, हमें पहले इन दो चर को दो आयामी अंतरिक्ष में प्लॉट करने की आवश्यकता है जहां प्रत्येक बिंदु में दो सह-निर्देशांक हैं, जिन्हें समर्थन वैक्टर कहा जाता है। लाइन डेटा को दो अलग-अलग वर्गीकृत समूहों में विभाजित करती है। यह लाइन क्लासीफायर होगी।

यहां, हम scikit-learn और iris डाटासेट का उपयोग करके SVM ​​क्लासिफायर बनाने जा रहे हैं। Scikitlearn पुस्तकालय में हैsklearn.svmमॉड्यूल और वर्गीकरण के लिए sklearn.svm.svc प्रदान करता है। 4 विशेषताओं के आधार पर आईरिस प्लांट के वर्ग की भविष्यवाणी करने के लिए एसवीएम क्लासिफायरियर को नीचे दिखाया गया है।

डेटासेट

हम आईरिस डेटासेट का उपयोग करेंगे जिसमें प्रत्येक में 50 उदाहरणों के 3 वर्ग हैं, जहां प्रत्येक वर्ग एक प्रकार के आईरिस संयंत्र को संदर्भित करता है। प्रत्येक उदाहरण में चार विशेषताएं हैं जैसे कि सेपाल लंबाई, सीपाल चौड़ाई, पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई। 4 विशेषताओं के आधार पर आईरिस प्लांट के वर्ग की भविष्यवाणी करने के लिए एसवीएम क्लासिफायरियर को नीचे दिखाया गया है।

गुठली

यह एसवीएम द्वारा उपयोग की जाने वाली तकनीक है। मूल रूप से ये ऐसे कार्य हैं जो निम्न-आयामी इनपुट स्थान लेते हैं और इसे उच्च आयामी स्थान में बदलते हैं। यह गैर-अलग करने योग्य समस्या को अलग करने योग्य समस्या में परिवर्तित करता है। कर्नेल फ़ंक्शन रैखिक, बहुपद, आरबीएफ और सिग्मॉइड में से कोई भी हो सकता है। इस उदाहरण में, हम रैखिक कर्नेल का उपयोग करेंगे।

आइए अब हम निम्नलिखित पैकेजों को आयात करते हैं -

import pandas as pd
import numpy as np
from sklearn import svm, datasets
import matplotlib.pyplot as plt

अब, इनपुट डेटा लोड करें -

iris = datasets.load_iris()

हम पहले दो फीचर्स ले रहे हैं -

X = iris.data[:, :2]
y = iris.target

हम मूल डेटा के साथ समर्थन वेक्टर मशीन सीमाओं की साजिश करेंगे। हम साजिश करने के लिए एक जाल बना रहे हैं।

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
X_plot = np.c_[xx.ravel(), yy.ravel()]

हमें नियमितीकरण पैरामीटर का मान देने की आवश्यकता है।

C = 1.0

हमें SVM क्लासिफायर ऑब्जेक्ट बनाने की आवश्यकता है।

Svc_classifier = svm_classifier.SVC(kernel='linear', 
C=C, decision_function_shape = 'ovr').fit(X, y)
Z = svc_classifier.predict(X_plot)
Z = Z.reshape(xx.shape)
plt.figure(figsize = (15, 5))
plt.subplot(121)
plt.contourf(xx, yy, Z, cmap = plt.cm.tab10, alpha = 0.3)
plt.scatter(X[:, 0], X[:, 1], c = y, cmap = plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('SVC with linear kernel')

रसद प्रतिगमन

मूल रूप से, लॉजिस्टिक रिग्रेशन मॉडल पर्यवेक्षित वर्गीकरण एल्गोरिथम परिवार के सदस्यों में से एक है। लॉजिस्टिक रिग्रेशन एक लॉजिस्टिक फ़ंक्शन का उपयोग करके संभावनाओं का आकलन करके आश्रित चर और स्वतंत्र चर के बीच संबंध को मापता है।

यहां, अगर हम आश्रित और स्वतंत्र चर के बारे में बात करते हैं तो आश्रित चर लक्ष्य वर्ग चर है जिसकी हम भविष्यवाणी करने जा रहे हैं और दूसरी तरफ स्वतंत्र चर वे विशेषताएँ हैं जिनका हम लक्ष्य वर्ग की भविष्यवाणी करने के लिए उपयोग करने जा रहे हैं।

लॉजिस्टिक रिग्रेशन में, संभावनाओं का आकलन करने का अर्थ है, घटना की संभावना घटना का अनुमान लगाना। उदाहरण के लिए, दुकान का मालिक उस ग्राहक की भविष्यवाणी करना चाहेगा, जिसने दुकान में प्रवेश किया है, प्ले स्टेशन (उदाहरण के लिए) खरीदेगा या नहीं। ग्राहक की कई विशेषताएं होंगी - लिंग, आयु आदि, जो दुकान कीपर द्वारा देखे जाने की संभावना का अनुमान लगाएगा, अर्थात, प्ले स्टेशन खरीदना या नहीं। लॉजिस्टिक फ़ंक्शन सिग्मॉइड वक्र है जो फ़ंक्शन को विभिन्न मापदंडों के साथ बनाने के लिए उपयोग किया जाता है।

आवश्यक शर्तें

लॉजिस्टिक रिग्रेशन का उपयोग करके क्लासिफायर बनाने से पहले, हमें अपने सिस्टम पर टिंकर पैकेज स्थापित करना होगा। से स्थापित किया जा सकता हैhttps://docs.python.org/2/library/tkinter.html।

अब, नीचे दिए गए कोड की मदद से, हम लॉजिस्टिक रिग्रेशन का उपयोग करके एक क्लासिफायरियर बना सकते हैं -

सबसे पहले, हम कुछ पैकेज आयात करेंगे -

import numpy as np
from sklearn import linear_model
import matplotlib.pyplot as plt

अब, हमें नमूना डेटा को परिभाषित करने की आवश्यकता है जो निम्नानुसार किया जा सकता है -

X = np.array([[2, 4.8], [2.9, 4.7], [2.5, 5], [3.2, 5.5], [6, 5], [7.6, 4],
              [3.2, 0.9], [2.9, 1.9],[2.4, 3.5], [0.5, 3.4], [1, 4], [0.9, 5.9]])
y = np.array([0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3])

अगला, हमें लॉजिस्टिक रिग्रेशन क्लासिफायर बनाने की आवश्यकता है, जिसे निम्नानुसार किया जा सकता है -

Classifier_LR = linear_model.LogisticRegression(solver = 'liblinear', C = 75)

अंतिम लेकिन कम से कम नहीं, हमें इस क्लासिफायर को प्रशिक्षित करने की आवश्यकता है -

Classifier_LR.fit(X, y)

अब, हम आउटपुट की कल्पना कैसे कर सकते हैं? यह Logistic_visualize () नाम से एक फंक्शन बनाकर किया जा सकता है -

Def Logistic_visualize(Classifier_LR, X, y):
   min_x, max_x = X[:, 0].min() - 1.0, X[:, 0].max() + 1.0
   min_y, max_y = X[:, 1].min() - 1.0, X[:, 1].max() + 1.0

उपरोक्त पंक्ति में, हमने एक्स और वाई को न्यूनतम और अधिकतम मानों को ग्रिड ग्रिड में उपयोग करने के लिए परिभाषित किया है। इसके अलावा, हम मेष ग्रिड की साजिश रचने के लिए चरण आकार को परिभाषित करेंगे।

mesh_step_size = 0.02

आइए X और Y मानों की जाली ग्रिड को निम्न प्रकार से परिभाषित करें -

x_vals, y_vals = np.meshgrid(np.arange(min_x, max_x, mesh_step_size),
                 np.arange(min_y, max_y, mesh_step_size))

निम्नलिखित कोड की सहायता से, हम जाल ग्रिड पर क्लासिफायर चला सकते हैं -

output = classifier.predict(np.c_[x_vals.ravel(), y_vals.ravel()])
output = output.reshape(x_vals.shape)
plt.figure()
plt.pcolormesh(x_vals, y_vals, output, cmap = plt.cm.gray)
 
plt.scatter(X[:, 0], X[:, 1], c = y, s = 75, edgecolors = 'black', 
linewidth=1, cmap = plt.cm.Paired)

कोड की निम्नलिखित पंक्ति भूखंड की सीमाओं को निर्दिष्ट करेगी

plt.xlim(x_vals.min(), x_vals.max())
plt.ylim(y_vals.min(), y_vals.max())
plt.xticks((np.arange(int(X[:, 0].min() - 1), int(X[:, 0].max() + 1), 1.0)))
plt.yticks((np.arange(int(X[:, 1].min() - 1), int(X[:, 1].max() + 1), 1.0)))
plt.show()

अब कोड चलाने के बाद, हम निम्नलिखित आउटपुट, लॉजिस्टिक रिग्रेशन क्लासिफायर - प्राप्त करेंगे।

निर्णय ट्री क्लासिफायर

एक निर्णय वृक्ष मूल रूप से एक बाइनरी ट्री फ़्लोचार्ट है जहां प्रत्येक नोड कुछ फ़ीचर चर के अनुसार टिप्पणियों के एक समूह को विभाजित करता है।

यहां, हम पुरुष या महिला की भविष्यवाणी करने के लिए एक निर्णय ट्री क्लासिफायर का निर्माण कर रहे हैं। हम 19 नमूनों वाले एक बहुत छोटे डेटा सेट को लेंगे। इन नमूनों में दो विशेषताएं होंगी - 'ऊंचाई' और 'बालों की लंबाई'।

शर्त

निम्न क्लासिफ़ायर बनाने के लिए, हमें स्थापित करने की आवश्यकता है pydotplus तथा graphviz। मूल रूप से, ग्राफविज़, डॉट फ़ाइलों का उपयोग करके ग्राफिक्स खींचने के लिए एक उपकरण है औरpydotplusग्राफविज़ डॉट भाषा का एक मॉड्यूल है। इसे पैकेज मैनेजर या पाइप के साथ स्थापित किया जा सकता है।

अब, हम निम्नलिखित पायथन कोड की मदद से निर्णय ट्री क्लासिफायर का निर्माण कर सकते हैं -

शुरू करने के लिए, आइए हम कुछ महत्वपूर्ण पुस्तकालयों को निम्नानुसार आयात करें -

import pydotplus
from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report
from sklearn import cross_validation
import collections

अब, हमें डेटासेट इस प्रकार प्रदान करना होगा -

X = [[165,19],[175,32],[136,35],[174,65],[141,28],[176,15],[131,32],
[166,6],[128,32],[179,10],[136,34],[186,2],[126,25],[176,28],[112,38],
[169,9],[171,36],[116,25],[196,25]]

Y = ['Man','Woman','Woman','Man','Woman','Man','Woman','Man','Woman',
'Man','Woman','Man','Woman','Woman','Woman','Man','Woman','Woman','Man']
data_feature_names = ['height','length of hair']

X_train, X_test, Y_train, Y_test = cross_validation.train_test_split
(X, Y, test_size=0.40, random_state=5)

डेटासेट प्रदान करने के बाद, हमें उस मॉडल को फिट करना होगा जो निम्नानुसार किया जा सकता है -

clf = tree.DecisionTreeClassifier()
clf = clf.fit(X,Y)

निम्नलिखित पायथन कोड की मदद से भविष्यवाणी की जा सकती है -

prediction = clf.predict([[133,37]])
print(prediction)

हम निम्नलिखित पायथन कोड की मदद से निर्णय वृक्ष की कल्पना कर सकते हैं -

dot_data = tree.export_graphviz(clf,feature_names = data_feature_names,
            out_file = None,filled = True,rounded = True)
graph = pydotplus.graph_from_dot_data(dot_data)
colors = ('orange', 'yellow')
edges = collections.defaultdict(list)

for edge in graph.get_edge_list():
edges[edge.get_source()].append(int(edge.get_destination()))

for edge in edges: edges[edge].sort()

for i in range(2):dest = graph.get_node(str(edges[edge][i]))[0]
dest.set_fillcolor(colors[i])
graph.write_png('Decisiontree16.png')

यह उपरोक्त कोड के लिए पूर्वानुमान देगा [‘Woman’] और निम्नलिखित निर्णय पेड़ बनाएँ -

हम परीक्षण करने के लिए भविष्यवाणी में सुविधाओं के मूल्यों को बदल सकते हैं।

रैंडम वन क्लासिफायर

जैसा कि हम जानते हैं कि पहनावा विधियाँ वे विधियाँ हैं जो मशीन लर्निंग मॉडल को एक अधिक शक्तिशाली मशीन लर्निंग मॉडल में जोड़ती हैं। रैंडम फॉरेस्ट, निर्णय पेड़ों का एक संग्रह, उनमें से एक है। यह सिंगल डिसीजन ट्री से बेहतर है क्योंकि प्रेडिक्टिव शक्तियां बरकरार रखते हुए यह परिणामों के औसत से ओवर-फिटिंग को कम कर सकता है। यहां, हम कर्क राशि जानने के लिए scikit पर यादृच्छिक वन मॉडल लागू करने जा रहे हैं।

आवश्यक पैकेज आयात करें -

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
import matplotlib.pyplot as plt
import numpy as np

अब, हमें वह डेटासेट प्रदान करने की आवश्यकता है जो निम्न प्रकार से और माइनस के रूप में किया जा सकता है

cancer = load_breast_cancer()
X_train, X_test, y_train,
y_test = train_test_split(cancer.data, cancer.target, random_state = 0)

डेटासेट प्रदान करने के बाद, हमें उस मॉडल को फिट करना होगा जो निम्नानुसार किया जा सकता है -

forest = RandomForestClassifier(n_estimators = 50, random_state = 0)
forest.fit(X_train,y_train)

अब, प्रशिक्षण के साथ-साथ उप-परीक्षण की सटीकता प्राप्त करें: यदि हम अनुमानकों की संख्या में वृद्धि करेंगे, तो परीक्षण उप-समूह की सटीकता भी बढ़ जाएगी।

print('Accuracy on the training subset:(:.3f)',format(forest.score(X_train,y_train)))
print('Accuracy on the training subset:(:.3f)',format(forest.score(X_test,y_test)))

उत्पादन

Accuracy on the training subset:(:.3f) 1.0
Accuracy on the training subset:(:.3f) 0.965034965034965

अब, निर्णय वृक्ष की तरह, यादृच्छिक वन है feature_importanceमॉड्यूल जो निर्णय पेड़ की तुलना में सुविधा वजन का एक बेहतर दृश्य प्रदान करेगा। यह निम्नानुसार कथानक और कल्पना कर सकता है -

n_features = cancer.data.shape[1]
plt.barh(range(n_features),forest.feature_importances_, align='center')
plt.yticks(np.arange(n_features),cancer.feature_names)
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.show()

एक क्लासिफायरियर का प्रदर्शन

मशीन लर्निंग एल्गोरिदम को लागू करने के बाद, हमें यह पता लगाना होगा कि मॉडल कितना प्रभावी है। प्रभावशीलता को मापने के लिए मापदंड डेटासेट और मीट्रिक पर आधारित हो सकते हैं। अलग-अलग मशीन लर्निंग एल्गोरिदम के मूल्यांकन के लिए, हम विभिन्न प्रदर्शन मीट्रिक का उपयोग कर सकते हैं। उदाहरण के लिए, मान लें कि एक क्लासिफायरियर का उपयोग विभिन्न वस्तुओं की छवियों के बीच अंतर करने के लिए किया जाता है, तो हम वर्गीकरण प्रदर्शन मैट्रिक्स का उपयोग कर सकते हैं जैसे कि औसत सटीकता, एयूसी, आदि। एक या अन्य अर्थों में, मीट्रिक जिसे हम अपने मशीन लर्निंग मॉडल का मूल्यांकन करने के लिए चुनते हैं। बहुत महत्वपूर्ण है क्योंकि मैट्रिक्स की पसंद प्रभावित करती है कि मशीन लर्निंग एल्गोरिदम का प्रदर्शन कैसे मापा और तुलना किया जाता है। निम्नलिखित कुछ मैट्रिक्स हैं -

असमंजस का जाल

मूल रूप से इसका उपयोग वर्गीकरण की समस्या के लिए किया जाता है जहां उत्पादन दो या दो से अधिक प्रकार की कक्षाओं का हो सकता है। यह एक क्लासिफायरियर के प्रदर्शन को मापने का सबसे आसान तरीका है। एक भ्रम मैट्रिक्स मूल रूप से दो आयामों के साथ एक तालिका है, जिसका नाम "वास्तविक" और "अनुमानित" है। दोनों आयामों में "ट्रू पॉजिटिव्स (टीपी)", "ट्रू नेगेटिव्स (टीएन)", "गलत पॉजिटिव्स (एफपी)", "गलत नेगेटिव्स (एफएन)" हैं।

उपरोक्त भ्रम मैट्रिक्स में, 1 सकारात्मक वर्ग के लिए है और 0 नकारात्मक वर्ग के लिए है।

कन्फ्यूजन मैट्रिक्स से जुड़ी शर्तें निम्नलिखित हैं -

  • True Positives − टीपी ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 1 था और भविष्यवाणी भी 1 है।

  • True Negatives − टीएन ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 0 था और अनुमानित भी 0 है।

  • False Positives − एफपी ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 0 था और भविष्यवाणी 1 भी है।

  • False Negatives − एफएन ऐसे मामले हैं जब डेटा बिंदु का वास्तविक वर्ग 1 था और अनुमानित भी 0 है।

शुद्धता

भ्रम मैट्रिक्स अपने आप में एक प्रदर्शन माप नहीं है, लेकिन लगभग सभी प्रदर्शन मैट्रिक्स भ्रम मैट्रिक्स पर आधारित होते हैं। उनमें से एक सटीकता है। वर्गीकरण की समस्याओं में, इसे मॉडल द्वारा की गई सभी प्रकार की भविष्यवाणियों के सही अनुमानों की संख्या के रूप में परिभाषित किया जा सकता है। सटीकता की गणना करने का सूत्र इस प्रकार है -

$ $ सटीकता = \ frac {TP + TN} {TP + FP + FN + TN} $ $

शुद्धता

यह ज्यादातर दस्तावेज़ पुनर्प्राप्ति में उपयोग किया जाता है। यह परिभाषित किया जा सकता है कि लौटे दस्तावेजों में से कितने सही हैं। निम्नलिखित परिशुद्धता की गणना के लिए सूत्र है -

$$ परिशुद्धता = \ frac {TP} {TP + FP} $ $

स्मरण या संवेदनशीलता

इसे इस रूप में परिभाषित किया जा सकता है कि मॉडल कितने सकारात्मक रिटर्न देता है। मॉडल की याद / संवेदनशीलता की गणना के लिए सूत्र निम्नलिखित है -

$ $ याद = \ frac {TP} {TP + FN} $ $

विशेषता

यह परिभाषित किया जा सकता है कि मॉडल कितने नकारात्मक रिटर्न देता है। यह याद करने के लिए बिल्कुल विपरीत है। निम्नलिखित मॉडल की विशिष्टता की गणना करने का सूत्र है -

$ $ विशिष्टता = \ frac {TN} {TN + FP} $ $

कक्षा असंतुलन की समस्या

वर्ग असंतुलन वह परिदृश्य है जहां एक वर्ग से संबंधित टिप्पणियों की संख्या अन्य वर्गों से संबंधित लोगों की तुलना में काफी कम है। उदाहरण के लिए, यह समस्या उस परिदृश्य में प्रमुख है जहां हमें दुर्लभ बीमारियों, बैंक में धोखाधड़ी के लेनदेन आदि की पहचान करने की आवश्यकता है।

असंतुलित वर्गों का उदाहरण

आइए हम असंतुलित वर्ग की अवधारणा को समझने के लिए सेट किए गए धोखाधड़ी का पता लगाने वाले डेटा का एक उदाहरण देखें

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

उपाय

Balancing the classes’असंतुलित कक्षाओं के समाधान के रूप में कार्य करता है। वर्गों को संतुलित करने का मुख्य उद्देश्य या तो अल्पसंख्यक वर्ग की आवृत्ति को बढ़ाना है या बहुमत वर्ग की आवृत्ति को कम करना है। असंतुलन कक्षाओं के मुद्दे को हल करने के लिए दृष्टिकोण निम्नलिखित हैं -

फिर से नमूने

पुनः-नमूना नमूना डेटा सेटों के पुनर्निर्माण के लिए उपयोग की जाने वाली विधियों की एक श्रृंखला है - प्रशिक्षण सेट और परीक्षण सेट दोनों। मॉडल की सटीकता में सुधार के लिए पुन: नमूना लिया जाता है। निम्नलिखित कुछ फिर से नमूने लेने की तकनीकें हैं -

  • Random Under-Sampling- इस तकनीक का उद्देश्य बहुसंख्यक वर्ग के उदाहरणों को बेतरतीब ढंग से समाप्त करके वर्ग वितरण को संतुलित करना है। यह तब तक किया जाता है जब तक कि बहुसंख्यक और अल्पसंख्यक वर्ग के उदाहरण संतुलित नहीं हो जाते।

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

इस मामले में, हम गैर-धोखाधड़ी उदाहरणों से प्रतिस्थापन के बिना 10% नमूने ले रहे हैं और फिर उन्हें धोखाधड़ी के उदाहरणों के साथ जोड़ सकते हैं -

नमूने के तहत यादृच्छिक के बाद गैर-कपटपूर्ण टिप्पणियों = 4950 = 495 का 10%

कपटपूर्ण टिप्पणियों के साथ संयोजन के बाद कुल अवलोकन = 50 + 495 = 545

इसलिए अब, नमूनाकरण के तहत नए डेटासेट के लिए घटना दर = 9%

इस तकनीक का मुख्य लाभ यह है कि यह रन समय को कम कर सकता है और भंडारण में सुधार कर सकता है। लेकिन दूसरी तरफ, यह प्रशिक्षण डेटा नमूनों की संख्या को कम करते हुए उपयोगी जानकारी को छोड़ सकता है।

  • Random Over-Sampling - इस तकनीक का उद्देश्य अल्पसंख्यक वर्ग में उदाहरणों की संख्या बढ़ाकर वर्ग वितरण को संतुलित करना है।

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

यदि हम 30 बार तो 50 फर्जी टिप्पणियों का प्रतिकार कर रहे हैं, तो अल्पसंख्यक वर्ग के टिप्पणियों की नकल करने के बाद धोखाधड़ी करने वाले अवलोकन 1500 होंगे। और फिर ओवरसैंपलिंग के बाद नए डेटा में कुल अवलोकन 4950 + 1500 = 6450 होगा। इसलिए नए डेटा सेट के लिए घटना दर 1500/6450 = 23% होगा।

इस पद्धति का मुख्य लाभ यह है कि उपयोगी जानकारी का कोई नुकसान नहीं होगा। लेकिन दूसरी तरफ, इसमें अति-फिटिंग की संभावना बढ़ जाती है क्योंकि यह अल्पसंख्यक वर्ग की घटनाओं की नकल करता है।

तकनीक को इकट्ठा करना

इस पद्धति का उपयोग मूल रूप से मौजूदा वर्गीकरण एल्गोरिदम को संशोधित करने के लिए किया जाता है ताकि उन्हें असंतुलित डेटा सेट के लिए उपयुक्त बनाया जा सके। इस दृष्टिकोण में हम मूल डेटा से कई दो स्टेज क्लासिफायर का निर्माण करते हैं और फिर उनकी भविष्यवाणियों को एकत्र करते हैं। रैंडम वन क्लासिफायर, पहनावा आधारित क्लासिफायरियर का उदाहरण है।

प्रतिगमन सबसे महत्वपूर्ण सांख्यिकीय और मशीन लर्निंग टूल में से एक है। यह कहना गलत नहीं होगा कि मशीन लर्निंग की यात्रा प्रतिगमन से शुरू होती है। इसे पैरामीट्रिक तकनीक के रूप में परिभाषित किया जा सकता है जो हमें डेटा के आधार पर निर्णय लेने की अनुमति देता है या दूसरे शब्दों में हमें इनपुट और आउटपुट चर के बीच संबंध सीखकर डेटा के आधार पर भविष्यवाणियां करने की अनुमति देता है। यहां, इनपुट चर पर निर्भर आउटपुट चर, निरंतर-मूल्यवान वास्तविक संख्याएं हैं। प्रतिगमन में, इनपुट और आउटपुट चर के बीच संबंध मायने रखता है और यह समझने में हमारी मदद करता है कि इनपुट चर के परिवर्तन के साथ आउटपुट चर का मूल्य कैसे बदलता है। प्रतिगमन अक्सर कीमतों, अर्थशास्त्र, विविधताओं, और इसी तरह की भविष्यवाणी के लिए उपयोग किया जाता है।

पाइथन में बिल्डिंग रेजिस्टर

इस खंड में, हम सीखेंगे कि एकल और साथ ही बहुपरत प्रतिगामी कैसे बनाया जाए।

रैखिक रेजिस्टर / सिंगल वेरिएबल रेजिस्टर

आइए हम कुछ आवश्यक पैकेजों को महत्वपूर्ण करें -

import numpy as np
from sklearn import linear_model
import sklearn.metrics as sm
import matplotlib.pyplot as plt

अब, हमें इनपुट डेटा प्रदान करने की आवश्यकता है और हमने अपने डेटा को linear.txt नामक फ़ाइल में सहेजा है।

input = 'D:/ProgramData/linear.txt'

हमें इस डेटा का उपयोग करके लोड करना होगा np.loadtxt समारोह।

input_data = np.loadtxt(input, delimiter=',')
X, y = input_data[:, :-1], input_data[:, -1]

अगला कदम मॉडल को प्रशिक्षित करना होगा। आइए हम प्रशिक्षण और परीक्षण नमूने दें।

training_samples = int(0.6 * len(X))
testing_samples = len(X) - num_training

X_train, y_train = X[:training_samples], y[:training_samples]

X_test, y_test = X[training_samples:], y[training_samples:]

अब, हमें एक रैखिक प्रतिगामी वस्तु बनाने की आवश्यकता है।

reg_linear = linear_model.LinearRegression()

प्रशिक्षण नमूनों के साथ वस्तु को प्रशिक्षित करें।

reg_linear.fit(X_train, y_train)

हमें परीक्षण डेटा के साथ भविष्यवाणी करने की आवश्यकता है।

y_test_pred = reg_linear.predict(X_test)

अब डेटा की साजिश रचें और कल्पना करें।

plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_test, y_test_pred, color = 'black', linewidth = 2)
plt.xticks(())
plt.yticks(())
plt.show()

उत्पादन

अब, हम अपने रैखिक प्रतिगमन के प्रदर्शन की गणना इस प्रकार कर सकते हैं -

print("Performance of Linear regressor:")
print("Mean absolute error =", round(sm.mean_absolute_error(y_test, y_test_pred), 2))
print("Mean squared error =", round(sm.mean_squared_error(y_test, y_test_pred), 2))
print("Median absolute error =", round(sm.median_absolute_error(y_test, y_test_pred), 2))
print("Explain variance score =", round(sm.explained_variance_score(y_test, y_test_pred),
2))
print("R2 score =", round(sm.r2_score(y_test, y_test_pred), 2))

उत्पादन

रैखिक रेजिस्टर का प्रदर्शन -

Mean absolute error = 1.78
Mean squared error = 3.89
Median absolute error = 2.01
Explain variance score = -0.09
R2 score = -0.09

उपरोक्त कोड में, हमने इस छोटे डेटा का उपयोग किया है। यदि आप कुछ बड़े डेटासेट चाहते हैं तो आप बड़े डेटासेट आयात करने के लिए sklearn.dataset का उपयोग कर सकते हैं।

2,4.82.9,4.72.5,53.2,5.56,57.6,43.2,0.92.9,1.92.4,
3.50.5,3.41,40.9,5.91.2,2.583.2,5.65.1,1.54.5,
1.22.3,6.32.1,2.8

बहुपरत प्रतिपालक

सबसे पहले, हम कुछ आवश्यक पैकेजों को आयात करते हैं -

import numpy as np
from sklearn import linear_model
import sklearn.metrics as sm
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures

अब, हमें इनपुट डेटा प्रदान करने की आवश्यकता है और हमने अपने डेटा को linear.txt नामक फ़ाइल में सहेजा है।

input = 'D:/ProgramData/Mul_linear.txt'

हम इस डेटा का उपयोग करके लोड करेंगे np.loadtxt समारोह।

input_data = np.loadtxt(input, delimiter=',')
X, y = input_data[:, :-1], input_data[:, -1]

अगला कदम मॉडल को प्रशिक्षित करना होगा; हम प्रशिक्षण और परीक्षण के नमूने देंगे।

training_samples = int(0.6 * len(X))
testing_samples = len(X) - num_training

X_train, y_train = X[:training_samples], y[:training_samples]

X_test, y_test = X[training_samples:], y[training_samples:]

अब, हमें एक रैखिक प्रतिगामी वस्तु बनाने की आवश्यकता है।

reg_linear_mul = linear_model.LinearRegression()

प्रशिक्षण नमूनों के साथ वस्तु को प्रशिक्षित करें।

reg_linear_mul.fit(X_train, y_train)

अब, अंत में हमें परीक्षण डेटा के साथ भविष्यवाणी करने की आवश्यकता है।

y_test_pred = reg_linear_mul.predict(X_test)

print("Performance of Linear regressor:")
print("Mean absolute error =", round(sm.mean_absolute_error(y_test, y_test_pred), 2))
print("Mean squared error =", round(sm.mean_squared_error(y_test, y_test_pred), 2))
print("Median absolute error =", round(sm.median_absolute_error(y_test, y_test_pred), 2))
print("Explain variance score =", round(sm.explained_variance_score(y_test, y_test_pred), 2))
print("R2 score =", round(sm.r2_score(y_test, y_test_pred), 2))

उत्पादन

रैखिक रेजिस्टर का प्रदर्शन -

Mean absolute error = 0.6
Mean squared error = 0.65
Median absolute error = 0.41
Explain variance score = 0.34
R2 score = 0.33

अब, हम डिग्री 10 का एक बहुपद बनायेंगे और रजिस्ट्रार को प्रशिक्षित करेंगे। हम नमूना डेटा बिंदु प्रदान करेंगे।

polynomial = PolynomialFeatures(degree = 10)
X_train_transformed = polynomial.fit_transform(X_train)
datapoint = [[2.23, 1.35, 1.12]]
poly_datapoint = polynomial.fit_transform(datapoint)

poly_linear_model = linear_model.LinearRegression()
poly_linear_model.fit(X_train_transformed, y_train)
print("\nLinear regression:\n", reg_linear_mul.predict(datapoint))
print("\nPolynomial regression:\n", poly_linear_model.predict(poly_datapoint))

उत्पादन

रैखिक प्रतिगमन -

[2.40170462]

बहुपद प्रतिगमन -

[1.8697225]

उपरोक्त कोड में, हमने इस छोटे डेटा का उपयोग किया है। यदि आप एक बड़ा डेटासेट चाहते हैं, तो आप बड़े डेटासेट आयात करने के लिए sklearn.dataset का उपयोग कर सकते हैं।

2,4.8,1.2,3.22.9,4.7,1.5,3.62.5,5,2.8,23.2,5.5,3.5,2.16,5,
2,3.27.6,4,1.2,3.23.2,0.9,2.3,1.42.9,1.9,2.3,1.22.4,3.5,
2.8,3.60.5,3.4,1.8,2.91,4,3,2.50.9,5.9,5.6,0.81.2,2.58,
3.45,1.233.2,5.6,2,3.25.1,1.5,1.2,1.34.5,1.2,4.1,2.32.3,
6.3,2.5,3.22.1,2.8,1.2,3.6

इस अध्याय में, हम लॉजिक प्रोग्रामिंग और आर्टिफिशियल इंटेलिजेंस में मदद करते हैं।

हम पहले से ही जानते हैं कि तर्क सही तर्क के सिद्धांतों का अध्ययन है या सरल शब्दों में यह अध्ययन है कि आखिर क्या होता है। उदाहरण के लिए, यदि दो कथन सत्य हैं तो हम इसमें से किसी तीसरे कथन का अनुमान लगा सकते हैं।

संकल्पना

लॉजिक प्रोग्रामिंग दो शब्दों, लॉजिक और प्रोग्रामिंग का संयोजन है। लॉजिक प्रोग्रामिंग एक प्रोग्रामिंग प्रतिमान है जिसमें समस्याओं को कार्यक्रम के बयानों द्वारा तथ्यों और नियमों के रूप में व्यक्त किया जाता है, लेकिन औपचारिक तर्क की एक प्रणाली के भीतर। अन्य प्रोग्रामिंग प्रतिमानों जैसे ऑब्जेक्ट ओरिएंटेड, फंक्शनल, डिक्लेरेटिव, और प्रक्रियात्मक, आदि की तरह, यह भी प्रोग्रामिंग को अप्रोच करने का एक विशेष तरीका है।

तर्क प्रोग्रामिंग के साथ समस्याओं को कैसे हल करें

लॉजिक प्रोग्रामिंग समस्या को हल करने के लिए तथ्यों और नियमों का उपयोग करता है। यही कारण है कि उन्हें लॉजिक प्रोग्रामिंग के बिल्डिंग ब्लॉक कहा जाता है। तर्क प्रोग्रामिंग में प्रत्येक कार्यक्रम के लिए एक लक्ष्य को निर्दिष्ट करने की आवश्यकता है। यह समझने के लिए कि लॉजिक प्रोग्रामिंग में किसी समस्या को कैसे हल किया जा सकता है, हमें बिल्डिंग ब्लॉक्स के बारे में जानना होगा - तथ्य और नियम -

तथ्यों

दरअसल, हर लॉजिक प्रोग्राम को काम करने के लिए तथ्यों की जरूरत होती है ताकि वह दिए गए लक्ष्य को हासिल कर सके। तथ्य मूल रूप से कार्यक्रम और डेटा के बारे में सही कथन हैं। उदाहरण के लिए, दिल्ली भारत की राजधानी है।

नियमों

दरअसल, नियम वे बाधाएँ हैं जो हमें समस्या डोमेन के बारे में निष्कर्ष निकालने की अनुमति देती हैं। नियम मूल रूप से विभिन्न तथ्यों को व्यक्त करने के लिए तार्किक खंड के रूप में लिखे गए हैं। उदाहरण के लिए, यदि हम कोई गेम बना रहे हैं तो सभी नियमों को परिभाषित किया जाना चाहिए।

लॉजिक प्रोग्रामिंग में किसी भी समस्या को हल करने के लिए नियम बहुत महत्वपूर्ण हैं। नियम मूल रूप से तार्किक निष्कर्ष हैं जो तथ्यों को व्यक्त कर सकते हैं। नियम का वाक्य विन्यास निम्नलिखित है -

A∶− B1, B2, ..., B n

यहाँ, A सिर है और B1, B2, ... Bn शरीर है।

उदाहरण के लिए - पूर्वज (X, Y): - पिता (X, Y)।

पूर्वज (X, Z): - पिता (X, Y), पूर्वज (Y, Z)।

इसे हर X और Y के लिए पढ़ा जा सकता है, यदि X, Y का पिता है और Y, Z का पूर्वज है, X, Z का पूर्वज है। हर X और Y के लिए, X, Z का पूर्वज है, यदि X है तो Y और Y के पिता Z के पूर्वज हैं।

उपयोगी पैकेज स्थापित करना

पायथन में लॉजिक प्रोग्रामिंग शुरू करने के लिए, हमें निम्नलिखित दो पैकेज स्थापित करने होंगे -

Kanren

यह हमें व्यापार तर्क के लिए कोड बनाने के तरीके को सरल बनाने का एक तरीका प्रदान करता है। यह हमें नियमों और तथ्यों के संदर्भ में तर्क व्यक्त करने देता है। निम्नलिखित कमांड आपको kanren स्थापित करने में मदद करेगी -

pip install kanren

SymPy

SymPy प्रतीकात्मक गणित के लिए एक पायथन लाइब्रेरी है। यह एक पूर्ण-फ़ीचर कंप्यूटर बीजगणित प्रणाली (CAS) बनने का लक्ष्य रखता है, जबकि कोड को यथासंभव सरल और आसानी से एक्स्टेंसिबल रखने के लिए। निम्नलिखित कमांड आपको SymPy स्थापित करने में मदद करेगा -

pip install sympy

लॉजिक प्रोग्रामिंग के उदाहरण

अनुसरण कुछ उदाहरण हैं जिन्हें तर्क प्रोग्रामिंग द्वारा हल किया जा सकता है -

गणितीय अभिव्यक्तियों का मिलान

वास्तव में हम लॉजिक प्रोग्रामिंग का उपयोग करके अज्ञात मूल्यों को बहुत प्रभावी तरीके से पा सकते हैं। निम्नलिखित पायथन कोड गणितीय अभिव्यक्ति से मेल खाने में आपकी मदद करेगा -

निम्नलिखित पैकेजों को पहले आयात करने पर विचार करें -

from kanren import run, var, fact
from kanren.assoccomm import eq_assoccomm as eq
from kanren.assoccomm import commutative, associative

हमें उन गणितीय कार्यों को परिभाषित करने की आवश्यकता है जिनका हम उपयोग करने जा रहे हैं -

add = 'add'
mul = 'mul'

जोड़ और गुणा दोनों संचार प्रक्रियाएँ हैं। इसलिए, हमें इसे निर्दिष्ट करने की आवश्यकता है और इसे निम्नानुसार किया जा सकता है -

fact(commutative, mul)
fact(commutative, add)
fact(associative, mul)
fact(associative, add)

चर को परिभाषित करना अनिवार्य है; इस प्रकार किया जा सकता है -

a, b = var('a'), var('b')

हमें मूल पैटर्न के साथ अभिव्यक्ति का मिलान करना होगा। हमारे पास मूल पैटर्न है, जो मूल रूप से (5 + a) * b है -

Original_pattern = (mul, (add, 5, a), b)

मूल पैटर्न के साथ मिलान करने के लिए हमारे पास दो भाव हैं -

exp1 = (mul, 2, (add, 3, 1))
exp2 = (add,5,(mul,8,1))

आउटपुट को निम्न कमांड से प्रिंट किया जा सकता है -

print(run(0, (a,b), eq(original_pattern, exp1)))
print(run(0, (a,b), eq(original_pattern, exp2)))

इस कोड को चलाने के बाद, हम निम्नलिखित आउटपुट प्राप्त करेंगे -

((3,2))
()

पहला आउटपुट के लिए मानों का प्रतिनिधित्व करता है a तथा b। पहली अभिव्यक्ति ने मूल पैटर्न से मिलान किया और इसके लिए मान लौटा दिएa तथा b लेकिन दूसरी अभिव्यक्ति मूल पैटर्न से मेल नहीं खाती इसलिए कुछ भी वापस नहीं किया गया है।

प्राइम नंबरों की जाँच

लॉजिक प्रोग्रामिंग की मदद से हम अभाज्य संख्याओं की सूची से संख्याओं का पता लगा सकते हैं और अभाज्य संख्याएँ भी उत्पन्न कर सकते हैं। नीचे दिया गया पायथन कोड, संख्याओं की सूची से अभाज्य संख्या प्राप्त करेगा और पहले 10 अभाज्य संख्याएँ भी उत्पन्न करेगा।

आइए पहले निम्नलिखित पैकेजों को आयात करने पर विचार करें -

from kanren import isvar, run, membero
from kanren.core import success, fail, goaleval, condeseq, eq, var
from sympy.ntheory.generate import prime, isprime
import itertools as it

अब, हम प्राइम_चेक नामक एक फ़ंक्शन को परिभाषित करेंगे जो डेटा के रूप में दिए गए नंबरों के आधार पर प्राइम संख्याओं की जांच करेगा।

def prime_check(x):
if isvar(x):
   return condeseq([(eq,x,p)] for p in map(prime, it.count(1)))
else:
   return success if isprime(x) else fail

अब, हमें एक चर घोषित करने की आवश्यकता है जिसका उपयोग किया जाएगा -

x = var()
print((set(run(0,x,(membero,x,(12,14,15,19,20,21,22,23,29,30,41,44,52,62,65,85)),
(prime_check,x)))))
print((run(10,x,prime_check(x))))

उपरोक्त कोड का आउटपुट निम्नानुसार होगा -

{19, 23, 29, 41}
(2, 3, 5, 7, 11, 13, 17, 19, 23, 29)

रहस्यों को सुलझाना

8-पहेलियों, ज़ेबरा पहेली, सुडोकू, एन-क्वीन, आदि जैसी कई समस्याओं को हल करने के लिए तर्क प्रोग्रामिंग का उपयोग किया जा सकता है। यहाँ हम ज़ेबरा पहेली के एक प्रकार का उदाहरण ले रहे हैं जो इस प्रकार है -

There are five houses.
The English man lives in the red house.
The Swede has a dog.
The Dane drinks tea.
The green house is immediately to the left of the white house.
They drink coffee in the green house.
The man who smokes Pall Mall has birds.
In the yellow house they smoke Dunhill.
In the middle house they drink milk.
The Norwegian lives in the first house.
The man who smokes Blend lives in the house next to the house with cats.
In a house next to the house where they have a horse, they smoke Dunhill.
The man who smokes Blue Master drinks beer.
The German smokes Prince.
The Norwegian lives next to the blue house.
They drink water in a house next to the house where they smoke Blend.

हम इसे सवाल के लिए हल कर रहे हैं who owns zebra अजगर की मदद से।

हमें आवश्यक पैकेज आयात करें -

from kanren import *
from kanren.core import lall
import time

अब, हमें दो कार्यों को परिभाषित करने की आवश्यकता है - left() तथा next() किसका घर बचा है या किसके घर के बगल में -

def left(q, p, list):
   return membero((q,p), zip(list, list[1:]))
def next(q, p, list):
   return conde([left(q, p, list)], [left(p, q, list)])

अब, हम निम्नानुसार एक परिवर्तनशील घर घोषित करेंगे -

houses = var()

हमें निम्नानुसार पैकेज की मदद से नियमों को परिभाषित करने की आवश्यकता है।

5 घर हैं -

rules_zebraproblem = lall(
   (eq, (var(), var(), var(), var(), var()), houses),

   (membero,('Englishman', var(), var(), var(), 'red'), houses),
   (membero,('Swede', var(), var(), 'dog', var()), houses),
   (membero,('Dane', var(), 'tea', var(), var()), houses),
   (left,(var(), var(), var(), var(), 'green'),
   (var(), var(), var(), var(), 'white'), houses),
   (membero,(var(), var(), 'coffee', var(), 'green'), houses),
   (membero,(var(), 'Pall Mall', var(), 'birds', var()), houses),
   (membero,(var(), 'Dunhill', var(), var(), 'yellow'), houses),
   (eq,(var(), var(), (var(), var(), 'milk', var(), var()), var(), var()), houses),
   (eq,(('Norwegian', var(), var(), var(), var()), var(), var(), var(), var()), houses),
   (next,(var(), 'Blend', var(), var(), var()),
   (var(), var(), var(), 'cats', var()), houses),
   (next,(var(), 'Dunhill', var(), var(), var()),
   (var(), var(), var(), 'horse', var()), houses),
   (membero,(var(), 'Blue Master', 'beer', var(), var()), houses),
   (membero,('German', 'Prince', var(), var(), var()), houses),
   (next,('Norwegian', var(), var(), var(), var()),
   (var(), var(), var(), var(), 'blue'), houses),
   (next,(var(), 'Blend', var(), var(), var()),
   (var(), var(), 'water', var(), var()), houses),
   (membero,(var(), var(), var(), 'zebra', var()), houses)
)

अब, पूर्ववर्ती बाधाओं के साथ सॉल्वर चलाएं -

solutions = run(0, houses, rules_zebraproblem)

निम्नलिखित कोड की मदद से, हम सॉल्वर से आउटपुट निकाल सकते हैं -

output_zebra = [house for house in solutions[0] if 'zebra' in house][0][0]

निम्नलिखित कोड समाधान प्रिंट करने में मदद करेगा -

print ('\n'+ output_zebra + 'owns zebra.')

उपरोक्त कोड का आउटपुट निम्नानुसार होगा -

German owns zebra.

Unsupervised मशीन लर्निंग एल्गोरिदम में किसी भी प्रकार का मार्गदर्शन प्रदान करने के लिए कोई पर्यवेक्षक नहीं होता है। यही कारण है कि वे कुछ सही कृत्रिम बुद्धिमत्ता के साथ निकटता से जुड़े हुए हैं।

अनिश्चित सीखने में, मार्गदर्शन के लिए कोई सही उत्तर नहीं होगा और कोई शिक्षक नहीं होगा। एल्गोरिदम को सीखने के लिए डेटा में दिलचस्प पैटर्न की खोज करने की आवश्यकता है।

क्लस्टरिंग क्या है?

मूल रूप से, यह एक प्रकार की अप्रशिक्षित शिक्षण पद्धति है और कई क्षेत्रों में उपयोग किए जाने वाले सांख्यिकीय डेटा विश्लेषण के लिए एक आम तकनीक है। क्लस्टरिंग मुख्य रूप से अवलोकनों के सेट को उप-समूहों में विभाजित करने का एक कार्य है, जिसे क्लस्टर कहा जाता है, इस तरह से कि एक ही क्लस्टर में अवलोकन एक अर्थ में समान होते हैं और वे अन्य समूहों में टिप्पणियों के लिए भिन्न होते हैं। सरल शब्दों में, हम कह सकते हैं कि क्लस्टरिंग का मुख्य लक्ष्य समानता और असमानता के आधार पर डेटा को समूहित करना है।

उदाहरण के लिए, निम्न आरेख अलग-अलग समूहों में समान डेटा दिखाता है -

डेटा क्लस्टरिंग के लिए एल्गोरिदम

डेटा क्लस्टर करने के लिए कुछ सामान्य एल्गोरिदम निम्नलिखित हैं -

K- मीन्स एल्गोरिथ्म

K- साधन क्लस्टरिंग एल्गोरिथ्म डेटा क्लस्टरिंग के लिए प्रसिद्ध एल्गोरिदम में से एक है। हमें यह मानने की आवश्यकता है कि समूहों की संख्या पहले से ही ज्ञात है। इसे फ्लैट क्लस्टरिंग भी कहा जाता है। यह एक पुनरावृत्त क्लस्टरिंग एल्गोरिथ्म है। इस एल्गोरिथम के लिए नीचे दिए गए चरणों का पालन करने की आवश्यकता है -

Step 1 - हमें K उपसमूहों की वांछित संख्या निर्दिष्ट करने की आवश्यकता है।

Step 2- समूहों की संख्या को ठीक करें और प्रत्येक डेटा बिंदु को एक क्लस्टर में बेतरतीब ढंग से असाइन करें। या दूसरे शब्दों में, हमें समूहों की संख्या के आधार पर अपने डेटा को वर्गीकृत करने की आवश्यकता है।

इस चरण में, क्लस्टर सेंट्रोइड्स की गणना की जानी चाहिए।

जैसा कि यह एक पुनरावृत्त एल्गोरिथ्म है, हमें K प्रत्याक्षेपों के स्थानों को हर पुनरावृत्ति के साथ अद्यतन करने की आवश्यकता है जब तक कि हम वैश्विक ऑप्टिमा नहीं पाते हैं या दूसरे शब्दों में केन्द्रक उनके इष्टतम स्थानों पर पहुंच जाते हैं।

निम्नलिखित कोड पायथन में K- साधन क्लस्टरिंग एल्गोरिदम को लागू करने में मदद करेगा। हम स्किटिट-लर्न मॉड्यूल का उपयोग करने जा रहे हैं।

हमें आवश्यक पैकेज आयात करें -

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans

कोड की निम्नलिखित पंक्ति दो आयामी डेटासेट बनाने में मदद करेगी, जिसमें चार बूँदें होती हैं, उपयोग करके make_blob वहाँ से sklearn.dataset पैकेज।

from sklearn.datasets.samples_generator import make_blobs

X, y_true = make_blobs(n_samples = 500, centers = 4,
            cluster_std = 0.40, random_state = 0)

हम निम्नलिखित कोड का उपयोग करके डेटासेट की कल्पना कर सकते हैं -

plt.scatter(X[:, 0], X[:, 1], s = 50);
plt.show()

यहाँ, हम कितने किलोमीटर (n_clusters) के आवश्यक पैरामीटर के साथ किमी को एल्गोरिदम होने के लिए आरम्भ कर रहे हैं।

kmeans = KMeans(n_clusters = 4)

हमें इनपुट डेटा के साथ K- साधन मॉडल को प्रशिक्षित करने की आवश्यकता है।

kmeans.fit(X)
y_kmeans = kmeans.predict(X)
plt.scatter(X[:, 0], X[:, 1], c = y_kmeans, s = 50, cmap = 'viridis')

centers = kmeans.cluster_centers_

नीचे दिए गए कोड से हमें अपने डेटा के आधार पर मशीन के निष्कर्षों की साजिश करने और कल्पना करने में मदद मिलेगी, और जिन समूहों को मिलना है, उनके अनुसार फिटमेंट।

plt.scatter(centers[:, 0], centers[:, 1], c = 'black', s = 200, alpha = 0.5);
plt.show()

मीन शिफ्ट एल्गोरिथम

यह एक और लोकप्रिय और शक्तिशाली क्लस्टरिंग एल्गोरिथ्म है जिसका उपयोग अप्रशिक्षित शिक्षा में किया जाता है। यह कोई धारणा नहीं बनाता है इसलिए यह एक गैर पैरामीट्रिक एल्गोरिथ्म है। इसे पदानुक्रमित क्लस्टरिंग या मीन शिफ्ट क्लस्टर विश्लेषण भी कहा जाता है। अनुसरण इस एल्गोरिथ्म के मूल चरण होंगे -

  • सबसे पहले, हमें अपने स्वयं के क्लस्टर में निर्दिष्ट डेटा बिंदुओं से शुरू करने की आवश्यकता है।

  • अब, यह केन्द्रक की गणना करता है और नए केन्द्रक के स्थान को अद्यतन करता है।

  • इस प्रक्रिया को दोहराते हुए, हम क्लस्टर के शिखर यानी उच्च घनत्व वाले क्षेत्र की ओर बढ़ते हैं।

  • यह एल्गोरिथ्म उस चरण में बंद हो जाता है जहां केन्द्रक अब और नहीं चलते हैं।

निम्नलिखित कोड की मदद से हम पायथन में मीन शिफ्ट क्लस्टरिंग एल्गोरिदम को लागू कर रहे हैं। हम स्किकिट-लर्न मॉड्यूल का उपयोग करने जा रहे हैं।

हमें आवश्यक पैकेज आयात करें -

import numpy as np
from sklearn.cluster import MeanShift
import matplotlib.pyplot as plt
from matplotlib import style
style.use("ggplot")

निम्न कोड दो आयामी डेटासेट बनाने में मदद करेगा, जिसमें चार बूँदें होंगी, का उपयोग करके make_blob वहाँ से sklearn.dataset पैकेज।

from sklearn.datasets.samples_generator import make_blobs

हम निम्नलिखित कोड के साथ डेटासेट की कल्पना कर सकते हैं

centers = [[2,2],[4,5],[3,10]]
X, _ = make_blobs(n_samples = 500, centers = centers, cluster_std = 1)
plt.scatter(X[:,0],X[:,1])
plt.show()

अब, हमें इनपुट डेटा के साथ मीन शिफ्ट क्लस्टर मॉडल को प्रशिक्षित करने की आवश्यकता है।

ms = MeanShift()
ms.fit(X)
labels = ms.labels_
cluster_centers = ms.cluster_centers_

निम्न कोड इनपुट डेटा के अनुसार क्लस्टर केंद्रों और क्लस्टर की अपेक्षित संख्या को प्रिंट करेगा -

print(cluster_centers)
n_clusters_ = len(np.unique(labels))
print("Estimated clusters:", n_clusters_)
[[ 3.23005036 3.84771893]
[ 3.02057451 9.88928991]]
Estimated clusters: 2

नीचे दिया गया कोड हमारे डेटा के आधार पर मशीन के निष्कर्षों की साजिश और कल्पना करने में मदद करेगा, और जो क्लस्टर पाए जाने हैं उनकी संख्या के अनुसार फिटमेंट।

colors = 10*['r.','g.','b.','c.','k.','y.','m.']
   for i in range(len(X)):
   plt.plot(X[i][0], X[i][1], colors[labels[i]], markersize = 10)
plt.scatter(cluster_centers[:,0],cluster_centers[:,1],
   marker = "x",color = 'k', s = 150, linewidths = 5, zorder = 10)
plt.show()

क्लस्टरिंग प्रदर्शन को मापने

वास्तविक विश्व डेटा स्वाभाविक रूप से विशिष्ट समूहों की संख्या में व्यवस्थित नहीं है। इस कारण के कारण, अनुमानों को कल्पना करना और आकर्षित करना आसान नहीं है। इसलिए हमें क्लस्टरिंग प्रदर्शन के साथ-साथ उसकी गुणवत्ता को भी मापना होगा। यह सिल्हूट विश्लेषण की मदद से किया जा सकता है।

सिल्हूट विश्लेषण

इस विधि का उपयोग क्लस्टर के बीच की दूरी को मापकर क्लस्टरिंग की गुणवत्ता की जांच करने के लिए किया जा सकता है। मूल रूप से, यह सिल्हूट स्कोर देकर समूहों की संख्या जैसे मापदंडों का आकलन करने का एक तरीका प्रदान करता है। यह स्कोर एक मीट्रिक है जो मापता है कि एक क्लस्टर में प्रत्येक बिंदु पड़ोसी समूहों के बिंदुओं के कितने करीब है।

सिल्हूट स्कोर का विश्लेषण

स्कोर में [-1, 1] की सीमा होती है। इस स्कोर का विश्लेषण निम्नलिखित है -

  • Score of +1 - +1 के पास स्कोर इंगित करता है कि नमूना पड़ोसी क्लस्टर से बहुत दूर है।

  • Score of 0 - स्कोर 0 इंगित करता है कि नमूना दो पड़ोसी समूहों के बीच निर्णय सीमा पर या बहुत करीब है।

  • Score of -1 - नकारात्मक अंक इंगित करता है कि नमूने गलत समूहों को सौंपा गया है।

सिल्हूट स्कोर की गणना

इस खंड में, हम सीखेंगे कि सिल्हूट स्कोर की गणना कैसे करें।

सिल्हूट स्कोर की गणना निम्न सूत्र का उपयोग करके की जा सकती है -

$$ सिल्हूट स्कोर = \ frac {\ बाएँ (pq \ दाएँ)} {अधिकतम \ बाएँ (p, q \ दाएँ)} $

यहां, निकटतम क्लस्टर में बिंदुओं के लिए औसत दूरी है जो डेटा बिंदु का हिस्सा नहीं है। और, अपने स्वयं के क्लस्टर में सभी बिंदुओं के लिए औसत अंतर-क्लस्टर दूरी है।

समूहों की इष्टतम संख्या को खोजने के लिए, हमें आयात करके पुन: क्लस्टरिंग एल्गोरिथ्म को चलाने की आवश्यकता है metrics मॉड्यूल से sklearnपैकेज। निम्नलिखित उदाहरण में, हम क्लस्टर की इष्टतम संख्या ज्ञात करने के लिए K- साधन क्लस्टरिंग एल्गोरिथ्म चलाएंगे -

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans

निम्न कोड की मदद से, हम दो आयामी डेटा जनरेट करेंगे, जिसमें चार बूँदें होंगी, का उपयोग करके make_blob वहाँ से sklearn.dataset पैकेज।

from sklearn.datasets.samples_generator import make_blobs

X, y_true = make_blobs(n_samples = 500, centers = 4, cluster_std = 0.40, random_state = 0)

दिखाए गए अनुसार चरों को प्रारंभ करें -

scores = []
values = np.arange(2, 10)

हमें सभी मूल्यों के माध्यम से K- साधन मॉडल को पुनरावृत्त करने की आवश्यकता है और इसे इनपुट डेटा के साथ प्रशिक्षित करने की भी आवश्यकता है।

for num_clusters in values:
kmeans = KMeans(init = 'k-means++', n_clusters = num_clusters, n_init = 10)
kmeans.fit(X)

अब, यूक्लिडियन दूरी मीट्रिक का उपयोग करके वर्तमान क्लस्टरिंग मॉडल के लिए सिल्हूट स्कोर का अनुमान लगाएं -

score = metrics.silhouette_score(X, kmeans.labels_,
metric = 'euclidean', sample_size = len(X))

कोड की निम्न पंक्ति समूहों की संख्या और साथ ही सिल्हूट स्कोर को प्रदर्शित करने में मदद करेगी।

print("\nNumber of clusters =", num_clusters)
print("Silhouette score =", score)
scores.append(score)

आपको निम्न आउटपुट प्राप्त होंगे -

Number of clusters = 9
Silhouette score = 0.340391138371

num_clusters = np.argmax(scores) + values[0]
print('\nOptimal number of clusters =', num_clusters)

अब, क्लस्टरों की इष्टतम संख्या के लिए आउटपुट निम्नानुसार होगा -

Optimal number of clusters = 2

निकटतम पड़ोसियों का पता लगाना

यदि हम एक फिल्म सिफारिश प्रणाली जैसी सिफारिशकर्ता प्रणाली का निर्माण करना चाहते हैं तो हमें निकटतम पड़ोसियों को खोजने की अवधारणा को समझने की आवश्यकता है। इसका कारण यह है कि सिफारिशकर्ता प्रणाली निकटतम पड़ोसियों की अवधारणा का उपयोग करती है।

concept of finding nearest neighborsदिए गए डेटासेट से इनपुट बिंदु के निकटतम बिंदु को खोजने की प्रक्रिया के रूप में परिभाषित किया जा सकता है। इस KNN) K- निकटतम पड़ोसियों का मुख्य उपयोग) एल्गोरिथ्म वर्गीकरण प्रणालियों का निर्माण करना है जो विभिन्न वर्गों के लिए इनपुट डेटा बिंदु की निकटता पर एक डेटा बिंदु को वर्गीकृत करता है।

नीचे दिया गया पायथन कोड किसी दिए गए डेटा सेट के K- निकटतम पड़ोसियों को खोजने में मदद करता है -

आवश्यक पैकेज आयात करें जैसा कि नीचे दिखाया गया है। यहाँ, हम उपयोग कर रहे हैंNearestNeighbors मॉड्यूल से sklearn पैकेज

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import NearestNeighbors

आइये अब इनपुट डेटा को परिभाषित करते हैं -

A = np.array([[3.1, 2.3], [2.3, 4.2], [3.9, 3.5], [3.7, 6.4], [4.8, 1.9], 
             [8.3, 3.1], [5.2, 7.5], [4.8, 4.7], [3.5, 5.1], [4.4, 2.9],])

अब, हमें निकटतम पड़ोसियों को परिभाषित करने की आवश्यकता है -

k = 3

हमें परीक्षण डेटा भी देने की आवश्यकता है जिससे निकटतम पड़ोसियों को ढूंढना है -

test_data = [3.3, 2.9]

निम्नलिखित कोड हमारे द्वारा परिभाषित इनपुट डेटा की कल्पना और साजिश कर सकते हैं -

plt.figure()
plt.title('Input data')
plt.scatter(A[:,0], A[:,1], marker = 'o', s = 100, color = 'black')

अब, हमें K निकटतम पड़ोसी का निर्माण करने की आवश्यकता है। ऑब्जेक्ट को भी प्रशिक्षित करने की आवश्यकता है

knn_model = NearestNeighbors(n_neighbors = k, algorithm = 'auto').fit(X)
distances, indices = knn_model.kneighbors([test_data])

अब, हम K निकटतम पड़ोसियों को निम्नानुसार प्रिंट कर सकते हैं

print("\nK Nearest Neighbors:")
for rank, index in enumerate(indices[0][:k], start = 1):
   print(str(rank) + " is", A[index])

हम परीक्षण डेटा बिंदु के साथ निकटतम पड़ोसियों की कल्पना कर सकते हैं

plt.figure()
plt.title('Nearest neighbors')
plt.scatter(A[:, 0], X[:, 1], marker = 'o', s = 100, color = 'k')
plt.scatter(A[indices][0][:][:, 0], A[indices][0][:][:, 1],
   marker = 'o', s = 250, color = 'k', facecolors = 'none')
plt.scatter(test_data[0], test_data[1],
   marker = 'x', s = 100, color = 'k')
plt.show()

उत्पादन

K Nearest Neighbors

1 is [ 3.1 2.3]
2 is [ 3.9 3.5]
3 is [ 4.4 2.9]

K- निकटतम पड़ोसी क्लासिफायर

K-निकटतम पड़ोसी (KNN) क्लासिफायर एक वर्गीकरण मॉडल है जो किसी दिए गए डेटा बिंदु को वर्गीकृत करने के लिए निकटतम पड़ोसियों के एल्गोरिथ्म का उपयोग करता है। हमने पिछले भाग में KNN एल्गोरिथ्म को लागू किया है, अब हम उस एल्गोरिथ्म का उपयोग करते हुए KNN क्लासिफायर बनाने जा रहे हैं।

KNN क्लासिफायर की अवधारणा

K- निकटतम पड़ोसी वर्गीकरण की मूल अवधारणा एक पूर्वनिर्धारित संख्या, अर्थात, 'k' को खोजने के लिए है - एक नए नमूने के लिए दूरी में निकटतम प्रशिक्षण नमूनों की, जिन्हें वर्गीकृत किया जाना है। नए नमूने अपने लेबल पड़ोसियों से ही प्राप्त करेंगे। केएनएन क्लासिफायर में एक निश्चित उपयोगकर्ता होता है, जो निर्धारित किए जाने वाले पड़ोसियों की संख्या के लिए स्थिर होता है। दूरी के लिए, मानक यूक्लिडियन दूरी सबसे आम पसंद है। केएनएन क्लासिफायर सीधे सीखने के नियमों को बनाने के बजाय सीखा नमूनों पर काम करता है। KNN एल्गोरिथम सभी मशीन लर्निंग एल्गोरिदम में से सबसे सरल है। यह बड़ी संख्या में वर्गीकरण और प्रतिगमन समस्याओं में सफल रहा है, उदाहरण के लिए, चरित्र मान्यता या छवि विश्लेषण।

Example

हम अंकों को पहचानने के लिए एक KNN क्लासिफायरियर का निर्माण कर रहे हैं। इसके लिए, हम MNIST डेटासेट का उपयोग करेंगे। हम इस कोड को Jupyter नोटबुक में लिखेंगे।

आवश्यक पैकेज आयात करें जैसा कि नीचे दिखाया गया है।

यहाँ हम उपयोग कर रहे हैं KNeighborsClassifier मॉड्यूल से sklearn.neighbors पैकेज -

from sklearn.datasets import *
import pandas as pd
%matplotlib inline
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
import numpy as np

निम्न कोड यह दर्शाने के लिए अंकों की छवि प्रदर्शित करेगा कि हमें किस छवि का परीक्षण करना है -

def Image_display(i):
   plt.imshow(digit['images'][i],cmap = 'Greys_r')
   plt.show()

अब, हमें MNIST डेटासेट लोड करने की आवश्यकता है। वास्तव में कुल 1797 छवियां हैं लेकिन हम पहले 1600 चित्रों को प्रशिक्षण नमूने के रूप में उपयोग कर रहे हैं और शेष 197 को परीक्षण के उद्देश्य से रखा जाएगा।

digit = load_digits()
digit_d = pd.DataFrame(digit['data'][0:1600])

अब, छवियों को प्रदर्शित करने पर हम आउटपुट को निम्नानुसार देख सकते हैं -

Image_display(0)

Image_display (0)

0 की छवि निम्नानुसार प्रदर्शित की गई है -

Image_display (9)

9 की छवि निम्नानुसार प्रदर्शित की गई है -

digit.keys ()

अब, हमें प्रशिक्षण और परीक्षण डेटा सेट बनाने और केएनएन क्लासिफायर के लिए परीक्षण डेटा सेट की आपूर्ति करने की आवश्यकता है।

train_x = digit['data'][:1600]
train_y = digit['target'][:1600]
KNN = KNeighborsClassifier(20)
KNN.fit(train_x,train_y)

निम्न आउटपुट K निकटतम पड़ोसी क्लासिफायर निर्माता बनाएंगे -

KNeighborsClassifier(algorithm = 'auto', leaf_size = 30, metric = 'minkowski',
   metric_params = None, n_jobs = 1, n_neighbors = 20, p = 2,
   weights = 'uniform')

हमें 1600 से अधिक किसी भी मनमानी संख्या प्रदान करके परीक्षण नमूना बनाने की आवश्यकता है, जो प्रशिक्षण नमूने थे।

test = np.array(digit['data'][1725])
test1 = test.reshape(1,-1)
Image_display(1725)

Image_display (6)

6 की छवि निम्नानुसार प्रदर्शित की गई है -

अब हम परीक्षण डेटा की भविष्यवाणी इस प्रकार करेंगे -

KNN.predict(test1)

उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करेगा -

array([6])

अब, निम्नलिखित पर विचार करें -

digit['target_names']

उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करेगा -

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) अंग्रेजी जैसी प्राकृतिक भाषा का उपयोग करके बुद्धिमान प्रणालियों के साथ संचार करने की एआई विधि को संदर्भित करता है।

प्राकृतिक भाषा के प्रसंस्करण की आवश्यकता तब होती है जब आप अपने निर्देशों के अनुसार रोबोट जैसी एक बुद्धिमान प्रणाली चाहते हैं, जब आप संवाद आधारित नैदानिक ​​विशेषज्ञ प्रणाली, आदि से निर्णय सुनना चाहते हैं।

एनएलपी के क्षेत्र में कंप्यूटर को मानव भाषाओं के उपयोग के साथ उपयोगी कार्यों में सुधार करना शामिल है। एनएलपी प्रणाली का इनपुट और आउटपुट हो सकता है -

  • Speech
  • लिखित पाठ

एनएलपी के घटक

इस खंड में, हम एनएलपी के विभिन्न घटकों के बारे में जानेंगे। एनएलपी के दो घटक हैं। घटक नीचे वर्णित हैं -

प्राकृतिक भाषा समझ (NLU)

इसमें निम्नलिखित कार्य शामिल हैं -

  • दी गई इनपुट को प्राकृतिक भाषा में उपयोगी अभ्यावेदन में मैप करना।

  • भाषा के विभिन्न पहलुओं का विश्लेषण।

प्राकृतिक भाषा पीढ़ी (एनएलजी)

यह कुछ आंतरिक प्रतिनिधित्व से प्राकृतिक भाषा के रूप में सार्थक वाक्यांशों और वाक्यों के उत्पादन की प्रक्रिया है। इसमें शामिल है -

  • Text planning - इसमें ज्ञान आधार से संबंधित सामग्री को पुनः प्राप्त करना शामिल है।

  • Sentence planning - इसमें आवश्यक शब्द चुनना, सार्थक वाक्यांश बनाना, वाक्य के स्वर सेट करना शामिल है।

  • Text Realization - यह वाक्य संरचना में वाक्य योजना की मैपिंग है।

एनएलयू में कठिनाइयाँ

NLU फॉर्म और संरचना में बहुत समृद्ध है; हालाँकि, यह अस्पष्ट है। अस्पष्टता के विभिन्न स्तर हो सकते हैं -

लेक्सिकल अस्पष्टता

यह शब्द-स्तर जैसे बहुत ही आदिम स्तर पर है। उदाहरण के लिए, शब्द "बोर्ड" को संज्ञा या क्रिया मानते हैं?

सिंटेक्स स्तर अस्पष्टता

एक वाक्य को विभिन्न तरीकों से पार्स किया जा सकता है। उदाहरण के लिए, "उन्होंने लाल टोपी के साथ बीटल उठाया।" - क्या उन्होंने बीटल को उठाने के लिए कैप का इस्तेमाल किया था या उन्होंने लाल रंग की बीटल को उठाया था?

अधिमान्य अस्पष्टता

सर्वनामों का उपयोग करके किसी चीज़ का जिक्र करना। उदाहरण के लिए, रीमा गौरी के पास गई। उसने कहा, "मैं थक गई हूं।" - बिल्कुल थका हुआ कौन है?

एनएलपी शब्दावली

आइए अब हम एनएलपी शब्दावली में कुछ महत्वपूर्ण शब्द देखते हैं।

  • Phonology - यह व्यवस्थित रूप से ध्वनि के आयोजन का अध्ययन है।

  • Morphology - यह आदिम सार्थक इकाइयों से शब्दों के निर्माण का अध्ययन है।

  • Morpheme - यह एक भाषा में अर्थ की एक आदिम इकाई है।

  • Syntax- यह एक वाक्य बनाने के लिए शब्दों को व्यवस्थित करने को संदर्भित करता है। इसमें वाक्य में और वाक्यांशों में शब्दों की संरचनात्मक भूमिका का निर्धारण भी शामिल है।

  • Semantics - यह शब्दों के अर्थ और शब्दों को सार्थक वाक्यांशों और वाक्यों में संयोजित करने के तरीके से संबंधित है।

  • Pragmatics - यह विभिन्न स्थितियों में वाक्यों के उपयोग और समझ से संबंधित है और वाक्य की व्याख्या कैसे प्रभावित होती है।

  • Discourse - यह इस बात से संबंधित है कि तत्काल पूर्ववर्ती वाक्य अगले वाक्य की व्याख्या को कैसे प्रभावित कर सकता है।

  • World Knowledge - इसमें दुनिया के बारे में सामान्य ज्ञान शामिल है।

एनएलपी में कदम

यह अनुभाग एनएलपी में विभिन्न चरणों को दर्शाता है।

लेक्सिकल विश्लेषण

इसमें शब्दों की संरचना की पहचान और विश्लेषण करना शामिल है। किसी भाषा के लेक्सिकन का अर्थ है किसी भाषा में शब्दों और वाक्यांशों का संग्रह। लेक्सिकल विश्लेषण txt के पूरे भाग को पैराग्राफ, वाक्यों और शब्दों में विभाजित कर रहा है।

सिंथेटिक विश्लेषण (पार्सिंग)

इसमें व्याकरण के लिए वाक्य में शब्दों का विश्लेषण और शब्दों को शब्दों में व्यवस्थित करना है जो शब्दों के बीच संबंध को दर्शाता है। "स्कूल जाता है लड़का" जैसे वाक्य को अंग्रेजी सिंटैक्टिक विश्लेषक ने खारिज कर दिया है।

शब्दार्थ विश्लेषण

यह पाठ से सटीक अर्थ या शब्दकोश अर्थ निकालता है। पाठ को अर्थपूर्णता के लिए जाँचा जाता है। यह कार्य डोमेन में सिंटैक्टिक संरचनाओं और ऑब्जेक्ट्स की मैपिंग द्वारा किया जाता है। सिमेंटिक एनालाइजर वाक्य "हॉट आइसक्रीम" के रूप में अवहेलना करता है।

प्रवचन एकता

किसी भी वाक्य का अर्थ वाक्य के अर्थ पर निर्भर करता है उसके ठीक पहले। इसके अलावा, यह तुरंत सफल वाक्य का अर्थ भी बताता है।

व्यावहारिक विश्लेषण

इस दौरान, जो कहा गया था, उसका वास्तव में मतलब क्या है, इस पर फिर से व्याख्या की गई। इसमें भाषा के उन पहलुओं को प्राप्त करना शामिल है जिनके लिए वास्तविक विश्व ज्ञान की आवश्यकता होती है।

इस अध्याय में, हम सीखेंगे कि प्राकृतिक भाषा टूलकिट पैकेज से कैसे शुरुआत करें।

शर्त

अगर हम नैचुरल लैंग्वेज प्रोसेसिंग के साथ एप्लिकेशन बनाना चाहते हैं तो संदर्भ में बदलाव सबसे मुश्किल है। संदर्भ कारक प्रभावित करता है कि मशीन किसी विशेष वाक्य को कैसे समझती है। इसलिए, हमें मशीन लर्निंग एप्रोच का उपयोग करके प्राकृतिक भाषा के अनुप्रयोगों को विकसित करने की आवश्यकता है ताकि मशीन उस तरीके को भी समझ सके जिस तरह से मनुष्य संदर्भ को समझ सकता है।

ऐसे अनुप्रयोगों के निर्माण के लिए हम NLTK (प्राकृतिक भाषा टूलकिट पैकेज) नामक पायथन पैकेज का उपयोग करेंगे।

एनएलटीके आयात कर रहा है

हमें इसका उपयोग करने से पहले एनएलटीके स्थापित करना होगा। इसे निम्नलिखित कमांड की सहायता से स्थापित किया जा सकता है -

pip install nltk

एनएलटीके के लिए एक कोंडा पैकेज बनाने के लिए, निम्नलिखित कमांड का उपयोग करें -

conda install -c anaconda nltk

अब NLTK पैकेज स्थापित करने के बाद, हमें इसे अजगर कमांड प्रॉम्प्ट के माध्यम से आयात करना होगा। हम पायथन कमांड प्रॉम्प्ट पर निम्नलिखित कमांड लिखकर इसे आयात कर सकते हैं -

>>> import nltk

एनएलटीके डेटा डाउनलोड करना

अब एनएलटीके आयात करने के बाद, हमें आवश्यक डेटा डाउनलोड करना होगा। यह पायथन कमांड प्रॉम्प्ट पर निम्नलिखित कमांड की मदद से किया जा सकता है -

>>> nltk.download()

अन्य आवश्यक पैकेजों को स्थापित करना

एनएलटीके का उपयोग करके प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के निर्माण के लिए, हमें आवश्यक पैकेज स्थापित करने की आवश्यकता है। पैकेज इस प्रकार हैं -

gensim

यह एक मजबूत सिमेंटिक मॉडलिंग लाइब्रेरी है जो कई अनुप्रयोगों के लिए उपयोगी है। हम इसे निम्नलिखित कमांड निष्पादित करके स्थापित कर सकते हैं -

pip install gensim

प्रतिरूप

इसका उपयोग बनाने के लिए किया जाता है gensimपैकेज ठीक से काम करते हैं। हम इसे निम्नलिखित कमांड निष्पादित करके स्थापित कर सकते हैं

pip install pattern

टोकनाइजेशन, स्टेमिंग और लेमेटेटाइजेशन की अवधारणा

इस खंड में, हम समझेंगे कि क्या है टोकेनाइजेशन, स्टेमिंग और लेमेटेटाइजेशन।

tokenization

इसे दिए गए पाठ को तोड़ने की प्रक्रिया के रूप में परिभाषित किया जा सकता है, अर्थात् छोटी इकाइयों में वर्ण क्रम जिसे टोकन कहा जाता है। टोकन शब्द, संख्या या विराम चिह्न हो सकते हैं। इसे शब्द विभाजन भी कहा जाता है। निम्नलिखित टोकनकरण का एक सरल उदाहरण है -

Input - आम, केला, अनानास और सेब सभी फल हैं।

Output -

दिए गए पाठ को तोड़ने की प्रक्रिया शब्द सीमाओं का पता लगाने की मदद से की जा सकती है। किसी शब्द के अंत और एक नए शब्द की शुरुआत को शब्द सीमा कहा जाता है। लेखन प्रणाली और शब्दों की टाइपोग्राफिक संरचना सीमाओं को प्रभावित करती है।

पायथन एनएलटीके मॉड्यूल में, हमारे पास टोकनेशन से संबंधित अलग-अलग पैकेज हैं जिन्हें हम अपनी आवश्यकताओं के अनुसार टेक्स्ट को टोकन में विभाजित करने के लिए उपयोग कर सकते हैं। कुछ पैकेज इस प्रकार हैं -

sent_tokenize पैकेज

जैसा कि नाम से पता चलता है, यह पैकेज इनपुट टेक्स्ट को वाक्यों में विभाजित करेगा। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.tokenize import sent_tokenize

word_tokenize पैकेज

यह पैकेज इनपुट टेक्स्ट को शब्दों में विभाजित करता है। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.tokenize import word_tokenize

WordPunctTokenizer पैकेज

यह पैकेज इनपुट टेक्स्ट को शब्दों के साथ-साथ विराम चिह्नों में विभाजित करता है। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.tokenize import WordPuncttokenizer

स्टेमिंग

शब्दों के साथ काम करते समय, हम व्याकरणिक कारणों से बहुत भिन्नताएं प्राप्त करते हैं। यहां भिन्नताओं की अवधारणा का अर्थ है कि हमें समान शब्दों के विभिन्न रूपों से निपटना होगाdemocracy, democratic, तथा democratization। मशीनों के लिए यह समझना बहुत आवश्यक है कि इन विभिन्न शब्दों का आधार आधार एक ही है। इस तरह, पाठ का विश्लेषण करते समय शब्दों के आधार रूपों को निकालना उपयोगी होगा।

हम इसे स्टेम करके प्राप्त कर सकते हैं। इस प्रकार, हम कह सकते हैं कि शब्दों के आधारों को काटकर शब्दों के आधार रूपों को निकालने की विधिवत् प्रक्रिया है।

पायथन एनएलटीके मॉड्यूल में, हमारे पास स्टेमिंग से संबंधित विभिन्न पैकेज हैं। इन पैकेजों का उपयोग शब्द के आधार रूपों को प्राप्त करने के लिए किया जा सकता है। ये पैकेज एल्गोरिदम का उपयोग करते हैं। कुछ पैकेज इस प्रकार हैं -

पोर्टरस्टेमर पैकेज

यह पायथन पैकेज बेस फॉर्म को निकालने के लिए पोर्टर के एल्गोरिदम का उपयोग करता है। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.stem.porter import PorterStemmer

उदाहरण के लिए, यदि हम शब्द देंगे ‘writing’ इस स्टेम के इनपुट के रूप में हम उन्हें शब्द प्राप्त करेंगे ‘write’ उपजी के बाद।

LancasterStemmer पैकेज

यह पायथन पैकेज बेस फॉर्म को निकालने के लिए लैंकेस्टर के एल्गोरिथ्म का उपयोग करेगा। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.stem.lancaster import LancasterStemmer

उदाहरण के लिए, यदि हम शब्द देंगे ‘writing’ इस स्टेम के इनपुट के रूप में हम उन्हें शब्द प्राप्त करेंगे ‘write’ उपजी के बाद।

स्नोबॉल स्टीमर पैकेज

यह पायथन पैकेज बेस फॉर्म को निकालने के लिए स्नोबॉल के एल्गोरिथ्म का उपयोग करेगा। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.stem.snowball import SnowballStemmer

उदाहरण के लिए, यदि हम शब्द देंगे ‘writing’ इस स्टेम के इनपुट के रूप में हम उन्हें शब्द प्राप्त करेंगे ‘write’ उपजी के बाद।

इन सभी एल्गोरिदम में सख्ती के विभिन्न स्तर हैं। अगर हम इन तीनों स्टेमर्स की तुलना करें तो पोर्टर स्टेमर्स सबसे कम सख्त हैं और लैंकेस्टर सबसे सख्त है। स्नोबॉल स्टेमर गति के साथ-साथ सख्ती के मामले में उपयोग करने के लिए अच्छा है।

lemmatization

हम शब्दों के आधार रूप को भी लेमेट्रीकरण द्वारा निकाल सकते हैं। यह मूल रूप से शब्दों के शब्दावली और रूपात्मक विश्लेषण के उपयोग के साथ होता है, जो आमतौर पर केवल विभक्ति अंत को हटाने के लिए लक्षित होता है। किसी भी शब्द के इस प्रकार के आधार रूप को लेम्मा कहा जाता है।

स्टेमिंग और लेमेटेटाइजेशन के बीच मुख्य अंतर शब्दावली और शब्दों के रूपात्मक विश्लेषण का उपयोग है। एक अन्य अंतर यह है कि आमतौर पर सबसे अधिक संबंधित शब्द व्युत्पन्न रूप से संबंधित होते हैं, जबकि लेटमैटाइजेशन आमतौर पर केवल एक लेम्मा के विभिन्न विभक्ति रूपों को ध्वस्त करता है। उदाहरण के लिए, यदि हम देखे गए शब्द को इनपुट शब्द के रूप में प्रदान करते हैं, तो स्टेमिंग शब्द 'एस' को वापस कर सकता है, लेकिन लेमेटेटाइजेशन शब्द को या तो देखने या देखने के लिए लौटने का प्रयास करेगा, जो इस बात पर निर्भर करता है कि टोकन का उपयोग एक क्रिया या एक संज्ञा थी।

पायथन एनएलटीके मॉड्यूल में, हमारे पास लेमैटाइजेशन प्रक्रिया से संबंधित निम्नलिखित पैकेज है जिसे हम शब्द के आधार रूपों को प्राप्त करने के लिए उपयोग कर सकते हैं -

WordNetLemmatizer पैकेज

यह पायथन पैकेज शब्द के आधार रूप को इस आधार पर निकालेगा कि यह संज्ञा के रूप में उपयोग किया जाता है या क्रिया के रूप में। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -

from nltk.stem import WordNetLemmatizer

चंकिंग: चंक्स में विभाजित डेटा

यह प्राकृतिक भाषा प्रसंस्करण में महत्वपूर्ण प्रक्रियाओं में से एक है। चोकिंग का मुख्य काम भाषण के हिस्सों और संज्ञा वाक्यांशों जैसे छोटे वाक्यांशों की पहचान करना है। हमने टोकन के निर्माण, टोकन के निर्माण की प्रक्रिया का अध्ययन किया है। मूल रूप से चूनिंग उन टोकन की लेबलिंग है। दूसरे शब्दों में, chunking हमें वाक्य की संरचना दिखाएगी।

निम्नलिखित अनुभाग में, हम विभिन्न प्रकार के चिनकिंग के बारे में जानेंगे।

चुंकने के प्रकार

दो प्रकार के मंथन होते हैं। प्रकार इस प्रकार हैं -

चौका लगाना

चुंचिंग की इस प्रक्रिया में, वस्तु, चीजें आदि अधिक सामान्य होने की ओर बढ़ते हैं और भाषा अधिक सारगर्भित हो जाती है। समझौते की अधिक संभावनाएं हैं। इस प्रक्रिया में, हम ज़ूम आउट करते हैं। उदाहरण के लिए, यदि हम इस प्रश्न को काट देंगे कि "कार किस उद्देश्य से है"? हमें जवाब "परिवहन" मिल सकता है।

ठिठुरते हुए

घूमने की इस प्रक्रिया में, वस्तु, चीजें आदि अधिक विशिष्ट होने की ओर बढ़ते हैं और भाषा अधिक घुस जाती है। गहरी संरचना की जांच नीचे की ओर करने में की जाएगी। इस प्रक्रिया में, हम ज़ूम इन करते हैं। उदाहरण के लिए, यदि हम "विशेष रूप से एक कार के बारे में बताओ" सवाल को काटते हैं? हमें कार के बारे में जानकारी के छोटे टुकड़े मिलेंगे।

Example

इस उदाहरण में, हम Noun-Phrase chunking करेंगे, chunking की एक श्रेणी, जो वाक्य में संज्ञा वाक्यांशों को चुनवाएगी, Python में NLTK मॉड्यूल का उपयोग करके -

Follow these steps in python for implementing noun phrase chunking −

Step 1- इस चरण में, हमें व्याकरण को व्याकरण में परिभाषित करने की आवश्यकता है। इसमें उन नियमों का समावेश होगा, जिनका हमें पालन करने की आवश्यकता है।

Step 2- इस चरण में, हमें एक चकोर पार्सर बनाने की आवश्यकता है। यह व्याकरण को पार्स करेगा और आउटपुट देगा।

Step 3 - इस अंतिम चरण में, आउटपुट एक ट्री प्रारूप में निर्मित होता है।

आइये निम्नानुसार आवश्यक एनएलटीके पैकेज का आयात करें -

import nltk

अब, हमें वाक्य को परिभाषित करने की आवश्यकता है। यहाँ, DT का अर्थ है निर्धारक, VBP का अर्थ है क्रिया, JJ का अर्थ है विशेषण, IN का अर्थ है पूर्वसर्ग और NN का अर्थ है संज्ञा।

sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
          ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

अब, हमें व्याकरण देने की आवश्यकता है। यहां, हम व्याकरण को नियमित अभिव्यक्ति के रूप में देंगे।

grammar = "NP:{<DT>?<JJ>*<NN>}"

हमें एक पार्सर को परिभाषित करना होगा जो व्याकरण को पार्स करेगा।

parser_chunking = nltk.RegexpParser(grammar)

पार्सर वाक्य को इस प्रकार बताता है -

parser_chunking.parse(sentence)

अगला, हमें आउटपुट प्राप्त करने की आवश्यकता है। आउटपुट साधारण चर में उत्पन्न होता है जिसे कहा जाता हैoutput_chunk

Output_chunk = parser_chunking.parse(sentence)

निम्नलिखित कोड के निष्पादन पर, हम अपने उत्पादन को एक पेड़ के रूप में आकर्षित कर सकते हैं।

output.draw()

शब्द का बैग (BoW) मॉडल

बैग ऑफ वर्ड (BoW), प्राकृतिक भाषा प्रसंस्करण में एक मॉडल है, जिसका उपयोग मूल रूप से पाठ से सुविधाओं को निकालने के लिए किया जाता है ताकि पाठ का उपयोग मॉडलिंग में किया जा सके जैसे कि मशीन लर्निंग एल्गोरिदम में।

अब प्रश्न उठता है कि हमें पाठ से विशेषताओं को निकालने की आवश्यकता क्यों है। ऐसा इसलिए है क्योंकि मशीन लर्निंग एल्गोरिदम कच्चे डेटा के साथ काम नहीं कर सकते हैं और उन्हें संख्यात्मक डेटा की आवश्यकता होती है ताकि वे इसके बारे में सार्थक जानकारी निकाल सकें। संख्यात्मक डेटा में पाठ डेटा के रूपांतरण को सुविधा निष्कर्षण या सुविधा एन्कोडिंग कहा जाता है।

यह काम किस प्रकार करता है

पाठ से सुविधाओं को निकालने के लिए यह बहुत सरल तरीका है। मान लें कि हमारे पास एक टेक्स्ट डॉक्यूमेंट है और हम इसे न्यूमेरिक डेटा में बदलना चाहते हैं या कहें कि इसमें से फीचर्स निकालना चाहते हैं, तो सबसे पहले यह मॉडल डॉक्यूमेंट के सभी शब्दों में से एक शब्दावलियाँ निकालता है। फिर एक दस्तावेज़ शब्द मैट्रिक्स का उपयोग करके, यह एक मॉडल का निर्माण करेगा। इस तरह, BoW केवल शब्दों के एक बैग के रूप में दस्तावेज़ का प्रतिनिधित्व करता है। दस्तावेज़ में शब्दों के क्रम या संरचना के बारे में कोई भी जानकारी नहीं दी गई है।

दस्तावेज़ शब्द मैट्रिक्स की अवधारणा

BoW एल्गोरिथ्म दस्तावेज़ अवधि मैट्रिक्स का उपयोग करके एक मॉडल बनाता है। जैसा कि नाम से पता चलता है, दस्तावेज़ शब्द मैट्रिक्स दस्तावेज़ में होने वाली विभिन्न शब्द गणनाओं का मैट्रिक्स है। इस मैट्रिक्स की सहायता से, पाठ दस्तावेज़ को विभिन्न शब्दों के भारित संयोजन के रूप में दर्शाया जा सकता है। थ्रेशोल्ड सेट करके और अधिक सार्थक शब्दों का चयन करके, हम उन सभी शब्दों के हिस्टोग्राम का निर्माण दस्तावेजों में कर सकते हैं, जिन्हें फीचर वेक्टर के रूप में इस्तेमाल किया जा सकता है। दस्तावेज़ शब्द मैट्रिक्स की अवधारणा को समझने के लिए एक उदाहरण निम्नलिखित है -

Example

मान लें कि हमारे पास निम्नलिखित दो वाक्य हैं -

  • Sentence 1 - हम शब्द मॉडल के बैग का उपयोग कर रहे हैं।

  • Sentence 2 - सुविधाओं को निकालने के लिए बैग ऑफ़ वर्ड्स मॉडल का उपयोग किया जाता है।

अब, इन दो वाक्यों पर विचार करके, हमारे पास निम्नलिखित १३ अलग-अलग शब्द हैं -

  • we
  • are
  • using
  • the
  • bag
  • of
  • words
  • model
  • is
  • used
  • for
  • extracting
  • features

अब, हमें प्रत्येक वाक्य में शब्द गणना का उपयोग करके प्रत्येक वाक्य के लिए एक हिस्टोग्राम बनाने की आवश्यकता है -

  • Sentence 1 - [1,1,1,1,1,1,1,1,0,0,0,0,0]

  • Sentence 2 - [0,0,0,1,1,1,1,1,1,1,1,1,1]

इस तरह, हमारे पास फीचर वैक्टर हैं जिन्हें निकाला गया है। प्रत्येक सुविधा वेक्टर 13-आयामी है क्योंकि हमारे पास 13 अलग-अलग शब्द हैं।

सांख्यिकी की अवधारणा

आँकड़ों की अवधारणा को टर्मफ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी (tf-idf) कहा जाता है। दस्तावेज़ में प्रत्येक शब्द महत्वपूर्ण है। आँकड़े हमें हर शब्द के महत्व को समझने में मदद करते हैं।

टर्म फ़्रीक्वेंसी (tf)

यह एक दस्तावेज में कितनी बार प्रत्येक शब्द दिखाई देता है, इसका माप है। यह दिए गए दस्तावेज़ में प्रत्येक शब्द की गिनती को कुल शब्दों की संख्या से विभाजित करके प्राप्त किया जा सकता है।

उलटा दस्तावेज़ आवृत्ति (आईडीएफ)

यह इस बात का माप है कि दस्तावेजों के दिए गए सेट में इस दस्तावेज़ के लिए कितना अनूठा शब्द है। आईडीएफ की गणना करने और एक विशिष्ट सुविधा वेक्टर तैयार करने के लिए, हमें आमतौर पर होने वाले शब्दों के वजन को कम करने और दुर्लभ शब्दों को तौलना चाहिए।

एनएलटीके में शब्दों के मॉडल का एक बैग का निर्माण

इस खंड में, हम इन वाक्यों से वैक्टर बनाने के लिए CountVectorizer का उपयोग करके स्ट्रिंग्स के एक संग्रह को परिभाषित करेंगे।

हमें आवश्यक पैकेज आयात करें -

from sklearn.feature_extraction.text import CountVectorizer

अब वाक्यों के सेट को परिभाषित करें।

Sentences = ['We are using the Bag of Word model', 'Bag of Word model is
           used for extracting the features.']

vectorizer_count = CountVectorizer()

features_text = vectorizer.fit_transform(Sentences).todense()

print(vectorizer.vocabulary_)

उपरोक्त कार्यक्रम नीचे दिखाए गए अनुसार आउटपुट उत्पन्न करता है। यह दर्शाता है कि उपरोक्त दो वाक्यों में हमारे 13 अलग-अलग शब्द हैं -

{'we': 11, 'are': 0, 'using': 10, 'the': 8, 'bag': 1, 'of': 7,
 'word': 12, 'model': 6, 'is': 5, 'used': 9, 'for': 4, 'extracting': 2, 'features': 3}

ये फ़ीचर वैक्टर (न्यूमेरिक फॉर्म का पाठ) हैं जिनका उपयोग मशीन लर्निंग के लिए किया जा सकता है।

समस्याओं को सुलझाना

इस खंड में, हम कुछ संबंधित समस्याओं को हल करेंगे।

श्रेणी की भविष्यवाणी

दस्तावेजों के एक सेट में, न केवल शब्द बल्कि शब्दों की श्रेणी भी महत्वपूर्ण है; पाठ की किस श्रेणी में एक विशेष शब्द गिरता है। उदाहरण के लिए, हम यह अनुमान लगाना चाहते हैं कि क्या दिए गए वाक्य श्रेणी के ईमेल, समाचार, खेल, कंप्यूटर आदि से संबंधित हैं, निम्नलिखित उदाहरण में, हम दस्तावेजों की श्रेणी खोजने के लिए एक फीचर वेक्टर बनाने के लिए tf-idf का उपयोग करने जा रहे हैं। हम sklearn के 20 समाचारसमूह डेटासेट से डेटा का उपयोग करेंगे।

हमें आवश्यक पैकेज आयात करने की आवश्यकता है -

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

श्रेणी के नक्शे को परिभाषित करें। हम धर्म, ऑटो, स्पोर्ट्स, इलेक्ट्रॉनिक्स और स्पेस नाम की पांच अलग-अलग श्रेणियों का उपयोग कर रहे हैं।

category_map = {'talk.religion.misc':'Religion','rec.autos''Autos',
   'rec.sport.hockey':'Hockey','sci.electronics':'Electronics', 'sci.space': 'Space'}

प्रशिक्षण सेट बनाएं -

training_data = fetch_20newsgroups(subset = 'train',
   categories = category_map.keys(), shuffle = True, random_state = 5)

एक गिनती सदिश बनानेवाला और शब्द गणना निकालने -

vectorizer_count = CountVectorizer()
train_tc = vectorizer_count.fit_transform(training_data.data)
print("\nDimensions of training data:", train_tc.shape)

Tf-idf ट्रांसफार्मर इस प्रकार बनाया जाता है -

tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)

अब, परीक्षण डेटा को परिभाषित करें -

input_data = [
   'Discovery was a space shuttle',
   'Hindu, Christian, Sikh all are religions',
   'We must have to drive safely',
   'Puck is a disk made of rubber',
   'Television, Microwave, Refrigrated all uses electricity'
]

उपरोक्त डेटा हमें एक बहुराष्ट्रीय Naive Bayes क्लासिफायर ट्रेन करने में मदद करेगा -

classifier = MultinomialNB().fit(train_tfidf, training_data.target)

गिनती वेक्टराइज़र का उपयोग करके इनपुट डेटा को बदलना -

input_tc = vectorizer_count.transform(input_data)

अब, हम tfidf ट्रांसफार्मर का उपयोग करते हुए वेक्टरकृत डेटा को बदल देंगे -

input_tfidf = tfidf.transform(input_tc)

हम उत्पादन श्रेणियों की भविष्यवाणी करेंगे -

predictions = classifier.predict(input_tfidf)

आउटपुट निम्नानुसार उत्पन्न होता है -

for sent, category in zip(input_data, predictions):
   print('\nInput Data:', sent, '\n Category:', \
      category_map[training_data.target_names[category]])

श्रेणी भविष्यवक्ता निम्नलिखित आउटपुट उत्पन्न करता है -

Dimensions of training data: (2755, 39297)

Input Data: Discovery was a space shuttle
Category: Space

Input Data: Hindu, Christian, Sikh all are religions
Category: Religion

Input Data: We must have to drive safely
Category: Autos

Input Data: Puck is a disk made of rubber
Category: Hockey

Input Data: Television, Microwave, Refrigrated all uses electricity
Category: Electronics

लिंग खोजक

इस समस्या कथन में, एक वर्गीकरणकर्ता को नाम प्रदान करके लिंग (पुरुष या महिला) खोजने के लिए प्रशिक्षित किया जाएगा। हमें एक फीचर वेक्टर बनाने और क्लासिफायरियर को प्रशिक्षित करने के लिए एक अनुमानी का उपयोग करने की आवश्यकता है। हम scikit-learn पैकेज से लेबल किए गए डेटा का उपयोग करेंगे। लिंग खोजक बनाने के लिए पायथन कोड निम्नलिखित है -

हमें आवश्यक पैकेज आयात करें -

import random

from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names

अब हमें इनपुट शब्द से अंतिम एन अक्षर निकालने की आवश्यकता है। ये पत्र सुविधाओं के रूप में कार्य करेंगे -

def extract_features(word, N = 2):
   last_n_letters = word[-N:]
   return {'feature': last_n_letters.lower()}
	
if __name__=='__main__':

NLTK में उपलब्ध लेबल नामों (पुरुष और महिला) का उपयोग करके प्रशिक्षण डेटा बनाएं -

male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)

random.seed(5)
random.shuffle(data)

अब, निम्नानुसार परीक्षण डेटा बनाया जाएगा -

namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']

निम्नलिखित कोड के साथ ट्रेन और परीक्षण के लिए उपयोग किए गए नमूनों की संख्या को परिभाषित करें

train_sample = int(0.8 * len(data))

अब, हमें विभिन्न लंबाई के माध्यम से पुनरावृति करने की आवश्यकता है ताकि सटीकता की तुलना की जा सके -

for i in range(1, 6):
   print('\nNumber of end letters:', i)
   features = [(extract_features(n, i), gender) for (n, gender) in data]
   train_data, test_data = features[:train_sample],
features[train_sample:]
   classifier = NaiveBayesClassifier.train(train_data)

क्लासिफायर की सटीकता निम्नानुसार गणना की जा सकती है -

accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
   print('Accuracy = ' + str(accuracy_classifier) + '%')

अब, हम आउटपुट का अनुमान लगा सकते हैं -

for name in namesInput:
   print(name, '==>', classifier.classify(extract_features(name, i)))

उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा -

Number of end letters: 1
Accuracy = 74.7%
Rajesh -> female
Gaurav -> male
Swati -> female
Shubha -> female

Number of end letters: 2
Accuracy = 78.79%
Rajesh -> male
Gaurav -> male
Swati -> female
Shubha -> female

Number of end letters: 3
Accuracy = 77.22%
Rajesh -> male
Gaurav -> female
Swati -> female
Shubha -> female

Number of end letters: 4
Accuracy = 69.98%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female

Number of end letters: 5
Accuracy = 64.63%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female

उपरोक्त आउटपुट में, हम देख सकते हैं कि अधिकतम संख्या में अंत अक्षर दो में सटीकता हैं और यह कम हो रहा है क्योंकि अंत पत्रों की संख्या बढ़ रही है।

विषय मॉडलिंग: पाठ डेटा में पैटर्न की पहचान करना

हम जानते हैं कि आम तौर पर दस्तावेजों को विषयों में बांटा जाता है। कभी-कभी हमें एक पाठ में पैटर्न की पहचान करने की आवश्यकता होती है जो किसी विशेष विषय के अनुरूप होता है। इसे करने की तकनीक को विषय मॉडलिंग कहा जाता है। दूसरे शब्दों में, हम कह सकते हैं कि विषय मॉडलिंग दस्तावेजों के दिए गए सेट में सार विषयों या छिपी संरचना को उजागर करने की एक तकनीक है।

हम निम्नलिखित परिदृश्य में विषय मॉडलिंग तकनीक का उपयोग कर सकते हैं -

पाठ वर्गीकरण

विषय मॉडलिंग की मदद से, वर्गीकरण में सुधार किया जा सकता है क्योंकि यह प्रत्येक शब्द को एक फीचर के रूप में अलग-अलग उपयोग करने के बजाय समान शब्दों को एक साथ समूहित करता है।

अनुशंसा प्रणाली

विषय मॉडलिंग की मदद से, हम समानता उपायों का उपयोग करके अनुशंसित सिस्टम का निर्माण कर सकते हैं।

टॉपिक मॉडलिंग के लिए एल्गोरिदम

टॉपिक मॉडलिंग को एल्गोरिदम का उपयोग करके लागू किया जा सकता है। एल्गोरिदम इस प्रकार हैं -

अव्यक्त डिरिचलेट आवंटन (LDA)

यह एल्गोरिथ्म विषय मॉडलिंग के लिए सबसे लोकप्रिय है। यह विषय मॉडलिंग को लागू करने के लिए संभाव्य चित्रमय मॉडल का उपयोग करता है। हमें एलडीए के एल्गोरिथ्म का उपयोग करने के लिए पायथन में जेनसिम पैकेज आयात करना होगा।

अव्यक्त अर्थ विश्लेषण (LDA) या अव्यक्त शब्दार्थ अनुक्रमण (LSI)

यह एल्गोरिथ्म रैखिक बीजगणित पर आधारित है। मूल रूप से यह दस्तावेज़ शब्द मैट्रिक्स पर एसवीडी (एकवचन मूल्य अपघटन) की अवधारणा का उपयोग करता है।

गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन (NMF)

यह भी रैखिक बीजगणित पर आधारित है।

विषय मॉडलिंग के लिए उपर्युक्त सभी एल्गोरिदम में होगा number of topics एक पैरामीटर के रूप में, Document-Word Matrix एक इनपुट के रूप में और WTM (Word Topic Matrix) और TDM (Topic Document Matrix) आउटपुट के रूप में।

किसी दिए गए इनपुट अनुक्रम में अगले की भविष्यवाणी करना मशीन सीखने में एक और महत्वपूर्ण अवधारणा है। यह अध्याय आपको समय श्रृंखला डेटा के विश्लेषण के बारे में विस्तृत विवरण देता है।

परिचय

टाइम सीरीज़ डेटा का मतलब उस डेटा से है जो किसी विशेष समय अंतराल की श्रृंखला में है। यदि हम मशीन लर्निंग में अनुक्रम भविष्यवाणी का निर्माण करना चाहते हैं, तो हमें अनुक्रमिक डेटा और समय से निपटना होगा। श्रृंखला डेटा अनुक्रमिक डेटा का एक सार है। डेटा का ऑर्डर करना अनुक्रमिक डेटा की एक महत्वपूर्ण विशेषता है।

अनुक्रम विश्लेषण या समय श्रृंखला विश्लेषण की बुनियादी अवधारणा

अनुक्रम विश्लेषण या समय श्रृंखला विश्लेषण पहले दिए गए अवलोकन के आधार पर किसी दिए गए इनपुट अनुक्रम में अगले की भविष्यवाणी करना है। भविष्यवाणी कुछ भी हो सकती है जो आगे आ सकती है: एक प्रतीक, एक संख्या, अगले दिन का मौसम, भाषण में अगला कार्यकाल आदि। स्टॉक मार्केट विश्लेषण, मौसम पूर्वानुमान और उत्पाद सिफारिशों जैसे अनुप्रयोगों में अनुक्रम विश्लेषण बहुत उपयोगी हो सकता है।

Example

अनुक्रम भविष्यवाणी को समझने के लिए निम्नलिखित उदाहरण पर विचार करें। यहाँA,B,C,D दिए गए मूल्य हैं और आपको मूल्य का अनुमान लगाना होगा E अनुक्रम भविष्यवाणी मॉडल का उपयोग करना।

उपयोगी पैकेज स्थापित करना

पायथन का उपयोग करते हुए समय श्रृंखला डेटा विश्लेषण के लिए, हमें निम्नलिखित पैकेज स्थापित करने की आवश्यकता है -

पांडा

पंडों एक खुला स्रोत बीएसडी-लाइसेंस प्राप्त पुस्तकालय है जो उच्च-प्रदर्शन, डेटा संरचना के उपयोग में आसानी और पायथन के लिए डेटा विश्लेषण उपकरण प्रदान करता है। आप निम्न कमांड की सहायता से पंडों को स्थापित कर सकते हैं -

pip install pandas

यदि आप एनाकोंडा का उपयोग कर रहे हैं और का उपयोग करके स्थापित करना चाहते हैं conda पैकेज मैनेजर, तो आप निम्न कमांड का उपयोग कर सकते हैं -

conda install -c anaconda pandas

hmmlearn

यह एक खुला स्रोत बीएसडी-लाइसेंस प्राप्त पुस्तकालय है जिसमें पायथन में हिडन मार्कोव मॉडल (एचएमएम) सीखने के लिए सरल एल्गोरिदम और मॉडल शामिल हैं। आप इसे निम्न कमांड की सहायता से स्थापित कर सकते हैं -

pip install hmmlearn

यदि आप एनाकोंडा का उपयोग कर रहे हैं और का उपयोग करके स्थापित करना चाहते हैं conda पैकेज मैनेजर, तो आप निम्न कमांड का उपयोग कर सकते हैं -

conda install -c omnia hmmlearn

PyStruct

यह एक संरचित शिक्षा और भविष्यवाणी पुस्तकालय है। PyStruct में कार्यान्वित लर्निंग एल्गोरिदम में सशर्त यादृच्छिक क्षेत्रों (CRF), अधिकतम-मार्जिन मार्कोव यादृच्छिक नेटवर्क (M3N) या संरचनात्मक समर्थन वेक्टर मशीनों जैसे नाम हैं। आप इसे निम्न कमांड की सहायता से स्थापित कर सकते हैं -

pip install pystruct

CVXOPT

इसका उपयोग पायथन प्रोग्रामिंग भाषा के आधार पर उत्तल अनुकूलन के लिए किया जाता है। यह एक मुफ्त सॉफ्टवेयर पैकेज भी है। आप इसे निम्न आदेश की सहायता से स्थापित कर सकते हैं -

pip install cvxopt

यदि आप एनाकोंडा का उपयोग कर रहे हैं और का उपयोग करके स्थापित करना चाहते हैं conda पैकेज मैनेजर, तो आप निम्न कमांड का उपयोग कर सकते हैं -

conda install -c anaconda cvdoxt

पंडों: टाइम सीरीज़ डेटा से हैंडलिंग, स्लाइसिंग और एक्सट्रेक्टिंग स्टेटिस्टिक

यदि आप समय श्रृंखला डेटा के साथ काम करना चाहते हैं, तो पंडास एक बहुत ही उपयोगी उपकरण है। पंडों की मदद से, आप निम्नलिखित कार्य कर सकते हैं -

  • का उपयोग करके दिनांक की एक श्रृंखला बनाएँ pd.date_range पैकेज

  • सूचकांक पांडा का उपयोग करके तारीखों के साथ pd.Series पैकेज

  • का उपयोग करके पुन: नमूने का प्रदर्शन करें ts.resample पैकेज

  • आवृत्ति बदलें

उदाहरण

निम्नलिखित उदाहरण आपको पंडों का उपयोग करके समय श्रृंखला डेटा को संभालने और स्लाइस करने से पता चलता है। ध्यान दें कि यहां हम मासिक आर्कटिक डेटा का उपयोग कर रहे हैं, जिसे मासिक . ao.index.b50.current.ascii से डाउनलोड किया जा सकता है और हमारे उपयोग के लिए पाठ प्रारूप में परिवर्तित किया जा सकता है।

समय श्रृंखला डेटा को संभालना

समय श्रृंखला डेटा को संभालने के लिए, आपको निम्नलिखित चरण करने होंगे -

पहले चरण में निम्नलिखित पैकेज आयात करना शामिल है -

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

अगला, एक फ़ंक्शन को परिभाषित करें जो इनपुट फ़ाइल से डेटा पढ़ेगा, जैसा कि नीचे दिए गए कोड में दिखाया गया है -

def read_data(input_file):
   input_data = np.loadtxt(input_file, delimiter = None)

अब, इस डेटा को टाइम सीरीज़ में बदलें। इसके लिए, हमारे समय श्रृंखला की तारीखों की सीमा बनाएं। इस उदाहरण में, हम एक महीने को डेटा की आवृत्ति के रूप में रखते हैं। हमारी फ़ाइल में डेटा है जो जनवरी 1950 से शुरू होता है।

dates = pd.date_range('1950-01', periods = input_data.shape[0], freq = 'M')

इस चरण में, हम पंडों श्रृंखला की मदद से समय श्रृंखला डेटा बनाते हैं, जैसा कि नीचे दिखाया गया है -

output = pd.Series(input_data[:, index], index = dates)	
return output
	
if __name__=='__main__':

यहाँ दिखाए अनुसार इनपुट फ़ाइल का पथ दर्ज करें -

input_file = "/Users/admin/AO.txt"

अब, कॉलम को समय-सारणी प्रारूप में बदलें, जैसा कि यहाँ दिखाया गया है -

timeseries = read_data(input_file)

अंत में, दिखाए गए आदेशों का उपयोग करके डेटा को प्लॉट और विज़ुअलाइज़ करें -

plt.figure()
timeseries.plot()
plt.show()

आप निम्न चित्र में दिखाए गए भूखंडों का अवलोकन करेंगे -

Slicing समय श्रृंखला डेटा

स्लाइसिंग में समय श्रृंखला डेटा का केवल कुछ हिस्सा पुनर्प्राप्त करना शामिल है। उदाहरण के एक भाग के रूप में, हम केवल 1980 से 1990 तक के डेटा को स्लाइस कर रहे हैं। इस कार्य को करने वाले निम्नलिखित कोड को देखें -

timeseries['1980':'1990'].plot()
   <matplotlib.axes._subplots.AxesSubplot at 0xa0e4b00>

plt.show()

जब आप टाइम सीरीज़ के डेटा को स्लाइस करने के लिए कोड चलाते हैं, तो आप निम्न ग्राफ को यहाँ की इमेज में दिखाए अनुसार देख सकते हैं -

टाइम सीरीज़ डेटा से स्टेटिस्टिक निकालना

आपको दिए गए डेटा से कुछ आंकड़े निकालने होंगे, उन मामलों में जहां आपको कुछ महत्वपूर्ण निष्कर्ष निकालना होगा। माध्य, विचरण, सहसंबंध, अधिकतम मूल्य और न्यूनतम मूल्य ऐसे कुछ आँकड़े हैं। यदि आप एक निश्चित समय श्रृंखला डेटा से ऐसे आँकड़े निकालना चाहते हैं तो आप निम्न कोड का उपयोग कर सकते हैं -

मीन

आप उपयोग कर सकते हैं mean() मतलब खोजने के लिए फ़ंक्शन, जैसा कि यहां दिखाया गया है -

timeseries.mean()

तब जिस आउटपुट पर आप चर्चा करेंगे, उसके उदाहरण हैं -

-0.11143128165238671

ज्यादा से ज्यादा

आप उपयोग कर सकते हैं max() फ़ंक्शन, अधिकतम खोजने के लिए, जैसा कि यहां दिखाया गया है -

timeseries.max()

तब जिस आउटपुट पर आप चर्चा करेंगे, उसके उदाहरण हैं -

3.4952999999999999

न्यूनतम

आप मिनिमम () फ़ंक्शन का उपयोग कर सकते हैं, जैसा कि यहां दिखाया गया है -

timeseries.min()

तब जिस आउटपुट पर आप चर्चा करेंगे, उसके उदाहरण हैं -

-4.2656999999999998

एक ही बार में सब कुछ पा लेना

यदि आप एक बार में सभी आँकड़ों की गणना करना चाहते हैं, तो आप इसका उपयोग कर सकते हैं describe() कार्य यहाँ दिखाया गया है -

timeseries.describe()

तब जिस आउटपुट पर आप चर्चा करेंगे, उसके उदाहरण हैं -

count   817.000000
mean     -0.111431
std       1.003151
min      -4.265700
25%      -0.649430
50%      -0.042744
75%       0.475720
max       3.495300
dtype: float64

फिर से नमूने

आप डेटा को एक अलग समय आवृत्ति के लिए फिर से शुरू कर सकते हैं। पुनः नमूनाकरण करने के लिए दो मापदंड हैं -

  • समय सीमा
  • Method

माध्य () के साथ पुनः नमूना

आप निम्न कोड का उपयोग माध्य () विधि के साथ डेटा को फिर से भरने के लिए कर सकते हैं, जो कि डिफ़ॉल्ट विधि है -

timeseries_mm = timeseries.resample("A").mean()
timeseries_mm.plot(style = 'g--')
plt.show()

तब, आप निम्न ग्राफ को माध्य () का उपयोग करके रेज़मैपलिंग के आउटपुट के रूप में देख सकते हैं -

माध्यिका के साथ पुनः नमूनाकरण ()

आप निम्न कोड का उपयोग करके डेटा का उपयोग कर सकते हैं median()विधि -

timeseries_mm = timeseries.resample("A").median()
timeseries_mm.plot()
plt.show()

फिर, आप निम्न ग्राफ को माध्यिका () के साथ पुन: नमूने के उत्पादन के रूप में देख सकते हैं -

रॉलिंग मीन

रोलिंग (चलती) माध्य की गणना के लिए आप निम्नलिखित कोड का उपयोग कर सकते हैं -

timeseries.rolling(window = 12, center = False).mean().plot(style = '-g')
plt.show()

फिर, आप निम्नलिखित ग्राफ को रोलिंग के आउटपुट के रूप में देख सकते हैं।

छिपे हुए मार्कोव मॉडल (HMM) द्वारा अनुक्रमिक डेटा का विश्लेषण

HMM एक आँकड़ा मॉडल है जो व्यापक रूप से निरंतरता और विलोपनशीलता के लिए उपयोग किया जाता है जैसे समय श्रृंखला शेयर बाजार विश्लेषण, स्वास्थ्य जांच और भाषण मान्यता। यह अनुभाग छिपे हुए मार्कोव मॉडल (एचएमएम) का उपयोग करके अनुक्रमिक डेटा का विश्लेषण करने के बारे में विस्तार से बताता है।

हिडन मार्कोव मॉडल (HMM)

एचएमएम एक स्टोकेस्टिक मॉडल है जो मार्कोव श्रृंखला की अवधारणा पर आधारित है, इस धारणा पर आधारित है कि भविष्य के आंकड़ों की संभावना केवल वर्तमान प्रक्रिया स्थिति पर निर्भर करती है, बल्कि किसी भी राज्य पर निर्भर करती है। उदाहरण के लिए, जब एक सिक्का उछाला जाता है, तो हम यह नहीं कह सकते कि पांचवें टॉस का परिणाम एक सिर होगा। ऐसा इसलिए है क्योंकि एक सिक्के में कोई मेमोरी नहीं है और अगला परिणाम पिछले परिणाम पर निर्भर नहीं करता है।

गणितीय रूप से, HMM में निम्नलिखित चर होते हैं -

स्टेट्स (S)

यह एचएमएम में मौजूद छिपे या अव्यक्त राज्यों का एक समूह है। यह एस द्वारा चिह्नित है।

आउटपुट प्रतीक (O)

यह एक एचएमएम में मौजूद संभावित आउटपुट प्रतीकों का एक सेट है। इसे O द्वारा निरूपित किया जाता है।

राज्य संक्रमण संभावना मैट्रिक्स (ए)

यह एक राज्य से दूसरे राज्यों में संक्रमण करने की संभावना है। यह ए द्वारा चिह्नित है।

अवलोकन उत्सर्जन संभाव्यता मैट्रिक्स (B)

किसी विशेष राज्य में किसी प्रतीक का उत्सर्जन / अवलोकन करने की संभावना है। इसे B द्वारा दर्शाया गया है।

पूर्व संभाव्यता मैट्रिक्स (()

यह सिस्टम के विभिन्न राज्यों से किसी विशेष राज्य में शुरू होने की संभावना है। इसे Π द्वारा निरूपित किया जाता है।

इसलिए, एक HMM के रूप में परिभाषित किया जा सकता है = (S,O,A,B,),

कहाँ पे,

  • S = {s1,s2,…,sN} एन संभव राज्यों का एक सेट है,
  • O = {o1,o2,…,oM} एम संभव अवलोकन प्रतीकों का एक सेट है,
  • A एक है NN राज्य संक्रमण संभावना मैट्रिक्स (टीपीएम),
  • B एक है NM अवलोकन या उत्सर्जन संभाव्यता मैट्रिक्स (EPM),
  • π एक आयामी प्रारंभिक राज्य संभाव्यता वितरण वेक्टर है।

उदाहरण: स्टॉक मार्केट डेटा का विश्लेषण

इस उदाहरण में, हम स्टॉक मार्केट के डेटा का विश्लेषण करने जा रहे हैं, चरण दर चरण, यह जानने के लिए कि एचएमएम क्रमिक या समय श्रृंखला डेटा के साथ कैसे काम करता है। कृपया ध्यान दें कि हम पायथन में इस उदाहरण को लागू कर रहे हैं।

नीचे दिखाए अनुसार आवश्यक पैकेज आयात करें -

import datetime
import warnings

अब, से शेयर बाजार के डेटा का उपयोग करें matpotlib.finance पैकेज, जैसा कि यहाँ दिखाया गया है -

import numpy as np
from matplotlib import cm, pyplot as plt
from matplotlib.dates import YearLocator, MonthLocator
try:
   from matplotlib.finance import quotes_historical_yahoo_och1
except ImportError:
   from matplotlib.finance import (
      quotes_historical_yahoo as quotes_historical_yahoo_och1)

from hmmlearn.hmm import GaussianHMM

एक प्रारंभ तिथि और अंतिम तिथि से डेटा लोड करें, अर्थात, दो विशिष्ट तिथियों के बीच जैसा कि यहाँ दिखाया गया है -

start_date = datetime.date(1995, 10, 10)
end_date = datetime.date(2015, 4, 25)
quotes = quotes_historical_yahoo_och1('INTC', start_date, end_date)

इस चरण में, हम हर दिन समापन उद्धरण निकालेंगे। इसके लिए, निम्नलिखित कमांड का उपयोग करें -

closing_quotes = np.array([quote[2] for quote in quotes])

अब, हम हर दिन ट्रेड किए गए शेयरों का वॉल्यूम निकालेंगे। इसके लिए, निम्नलिखित कमांड का उपयोग करें -

volumes = np.array([quote[5] for quote in quotes])[1:]

यहां नीचे दिखाए गए कोड का उपयोग करके, स्टॉक की कीमतों को बंद करने का प्रतिशत अंतर लें -

diff_percentages = 100.0 * np.diff(closing_quotes) / closing_quotes[:-]
dates = np.array([quote[0] for quote in quotes], dtype = np.int)[1:]
training_data = np.column_stack([diff_percentages, volumes])

इस चरण में, गाऊसी एचएमएम बनाएं और प्रशिक्षित करें। इसके लिए, निम्न कोड का उपयोग करें -

hmm = GaussianHMM(n_components = 7, covariance_type = 'diag', n_iter = 1000)
with warnings.catch_warnings():
   warnings.simplefilter('ignore')
   hmm.fit(training_data)

अब, दिखाए गए आदेशों का उपयोग करके, एचएमएम मॉडल का उपयोग करके डेटा उत्पन्न करें -

num_samples = 300
samples, _ = hmm.sample(num_samples)

अंत में, इस चरण में, हम ग्राफ के रूप में आउटपुट के रूप में ट्रेड किए गए शेयरों के अंतर प्रतिशत और वॉल्यूम की साजिश करते हैं और कल्पना करते हैं।

अंतर कोड को प्लॉट और कल्पना करने के लिए निम्न कोड का उपयोग करें -

plt.figure()
plt.title('Difference percentages')
plt.plot(np.arange(num_samples), samples[:, 0], c = 'black')

ट्रेड किए गए शेयरों की मात्रा की साजिश करने और कल्पना करने के लिए निम्न कोड का उपयोग करें -

plt.figure()
plt.title('Volume of shares')
plt.plot(np.arange(num_samples), samples[:, 1], c = 'black')
plt.ylim(ymin = 0)
plt.show()

इस अध्याय में, हम पायथन के साथ एआई का उपयोग करके भाषण मान्यता के बारे में जानेंगे।

भाषण वयस्क मानव संचार का सबसे बुनियादी साधन है। भाषण प्रसंस्करण का मूल लक्ष्य एक मानव और एक मशीन के बीच बातचीत प्रदान करना है।

स्पीच प्रोसेसिंग सिस्टम में मुख्य रूप से तीन कार्य होते हैं -

  • First, वाक् पहचान जो मशीन को शब्दों, वाक्यांशों और वाक्यों को पकड़ने की अनुमति देता है जो हम बोलते हैं

  • Second, प्राकृतिक भाषा प्रसंस्करण मशीन को यह समझने की अनुमति देता है कि हम क्या बोलते हैं, और

  • Third, भाषण संश्लेषण मशीन को बोलने की अनुमति देता है।

इस अध्याय पर केंद्रित है speech recognitionमनुष्य द्वारा बोले जाने वाले शब्दों को समझने की प्रक्रिया। याद रखें कि स्पीच सिग्नल माइक्रोफोन की मदद से कैप्चर किए जाते हैं और फिर इसे सिस्टम द्वारा समझना पड़ता है।

एक भाषण पहचानकर्ता का निर्माण

भाषण मान्यता या स्वचालित भाषण मान्यता (एएसआर) रोबोटिक्स जैसी एआई परियोजनाओं के लिए ध्यान का केंद्र है। एएसआर के बिना, मानव के साथ बातचीत करने वाले संज्ञानात्मक रोबोट की कल्पना करना संभव नहीं है। हालांकि, भाषण पहचानकर्ता का निर्माण करना काफी आसान नहीं है।

भाषण पहचान प्रणाली विकसित करने में कठिनाइयाँ

उच्च गुणवत्ता वाली भाषण मान्यता प्रणाली विकसित करना वास्तव में एक कठिन समस्या है। भाषण मान्यता प्रौद्योगिकी की कठिनाई को मोटे तौर पर कई आयामों के साथ चित्रित किया जा सकता है, जैसा कि नीचे चर्चा की गई है -

  • Size of the vocabulary- शब्दावली का आकार ASR विकसित करने में आसानी को प्रभावित करता है। बेहतर समझ के लिए शब्दावली के निम्नलिखित आकारों पर विचार करें।

    • एक छोटे आकार की शब्दावली में 2-100 शब्द होते हैं, उदाहरण के लिए, एक आवाज-मेनू प्रणाली में

    • एक मध्यम आकार की शब्दावली में कई 100 से 1,000 शब्द होते हैं, उदाहरण के लिए, डेटाबेस-पुनर्प्राप्ति कार्य के रूप में

    • एक बड़े आकार की शब्दावली में कई हजार शब्द होते हैं, जैसा कि एक सामान्य श्रुतलेख कार्य में होता है।

    ध्यान दें कि, शब्दावली का आकार जितना बड़ा होगा, मान्यता प्राप्त करना उतना ही कठिन होगा।

  • Channel characteristics- चैनल की गुणवत्ता भी एक महत्वपूर्ण आयाम है। उदाहरण के लिए, मानव भाषण में पूर्ण आवृत्ति रेंज के साथ उच्च बैंडविड्थ होता है, जबकि एक टेलीफोन भाषण में सीमित आवृत्ति सीमा के साथ कम बैंडविड्थ होता है। ध्यान दें कि यह बाद में कठिन है।

  • Speaking mode- एक एएसआर विकसित करने में आसानी भी बोलने वाले मोड पर निर्भर करती है, यह है कि क्या भाषण अलग-अलग शब्द मोड में है, या कनेक्टेड वर्ड मोड, या निरंतर भाषण मोड में है। ध्यान दें कि एक निरंतर भाषण को पहचानना कठिन है।

  • Speaking style- एक वाक् भाषण औपचारिक शैली में हो सकता है, या आकस्मिक शैली के साथ सहज और संवादात्मक हो सकता है। उत्तरार्द्ध को पहचानना कठिन है।

  • Speaker dependency- भाषण स्पीकर पर निर्भर, स्पीकर अनुकूली या स्पीकर स्वतंत्र हो सकता है। एक वक्ता स्वतंत्र निर्माण के लिए सबसे कठिन है।

  • Type of noise- ASR विकसित करते समय विचार करने के लिए शोर एक अन्य कारक है। ध्वनि अनुपात के संकेत विभिन्न श्रेणियों में हो सकते हैं, जो ध्वनिक वातावरण पर निर्भर करता है जो कम बनाम अधिक पृष्ठभूमि शोर का अवलोकन करता है -

    • यदि शोर अनुपात का संकेत 30dB से अधिक है, तो इसे उच्च श्रेणी माना जाता है

    • यदि शोर अनुपात का संकेत 30dB से 10db के बीच होता है, तो इसे मध्यम SNR माना जाता है

    • यदि शोर अनुपात का संकेत 10dB से कम है, तो इसे कम रेंज माना जाता है

    उदाहरण के लिए, पृष्ठभूमि का प्रकार जैसे स्थिर, गैर-मानवीय शोर, पृष्ठभूमि भाषण और अन्य वक्ताओं द्वारा क्रॉसस्टॉक भी समस्या की कठिनाई में योगदान करते हैं।

  • Microphone characteristics- माइक्रोफोन की गुणवत्ता अच्छी, औसत या औसत से कम हो सकती है। इसके अलावा, मुंह और माइक्रो-फोन के बीच की दूरी अलग-अलग हो सकती है। इन कारकों को मान्यता प्रणालियों के लिए भी माना जाना चाहिए।

इन कठिनाइयों के बावजूद, शोधकर्ताओं ने भाषण के विभिन्न पहलुओं पर बहुत काम किया जैसे कि भाषण संकेत को समझना, स्पीकर और लहजे की पहचान करना।

भाषण पहचानकर्ता बनाने के लिए आपको नीचे दिए गए चरणों का पालन करना होगा -

ऑडियो सिग्नल विज़ुअलाइज़ करना - एक फ़ाइल से पढ़ना और उस पर काम करना

यह भाषण पहचान प्रणाली के निर्माण का पहला चरण है क्योंकि यह इस बात की समझ देता है कि ऑडियो सिग्नल कैसे संरचित है। ऑडियो संकेतों के साथ काम करने के लिए कुछ सामान्य कदम इस प्रकार हैं -

रिकॉर्डिंग

जब आपको किसी फाइल से ऑडियो सिग्नल पढ़ना हो, तो उसे पहले माइक्रोफ़ोन का उपयोग करके रिकॉर्ड करें।

सैम्पलिंग

माइक्रोफ़ोन के साथ रिकॉर्डिंग करते समय, सिग्नल एक डिजीटल रूप में संग्रहीत होते हैं। लेकिन उस पर काम करने के लिए, मशीन को असतत संख्यात्मक रूप में उनकी आवश्यकता होती है। इसलिए, हमें एक निश्चित आवृत्ति पर नमूना प्रदर्शन करना चाहिए और संकेत को असतत संख्यात्मक रूप में परिवर्तित करना चाहिए। नमूने के लिए उच्च आवृत्ति का चयन करने का तात्पर्य यह है कि जब मनुष्य सिग्नल सुनते हैं, तो वे इसे निरंतर ऑडियो सिग्नल के रूप में महसूस करते हैं।

उदाहरण

निम्न उदाहरण पायथन का उपयोग करते हुए, एक ऑडियो सिग्नल का विश्लेषण करने के लिए एक चरणबद्ध दृष्टिकोण दिखाता है, जो एक फ़ाइल में संग्रहीत है। इस ऑडियो सिग्नल की आवृत्ति 44,100 HZ है।

यहां दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile

अब, संग्रहीत ऑडियो फ़ाइल पढ़ें। यह दो मान लौटाएगा: नमूना आवृत्ति और ऑडियो सिग्नल। ऑडियो फ़ाइल का पथ प्रदान करें जहाँ यह संग्रहीत है, जैसा कि यहाँ दिखाया गया है -

frequency_sampling, audio_signal = wavfile.read("/Users/admin/audio_file.wav")

दिखाए गए आदेशों का उपयोग करते हुए ऑडियो सिग्नल, डेटा प्रकार के सिग्नल और इसकी अवधि के नमूने की आवृत्ति जैसे मापदंडों को प्रदर्शित करें -

print('\nSignal shape:', audio_signal.shape)
print('Signal Datatype:', audio_signal.dtype)
print('Signal duration:', round(audio_signal.shape[0] / 
float(frequency_sampling), 2), 'seconds')

इस चरण में नीचे दिए गए संकेत को सामान्य करना शामिल है -

audio_signal = audio_signal / np.power(2, 15)

इस चरण में, हम इस संकेत से पहले 100 मानों को कल्पना करने के लिए निकाल रहे हैं। इस उद्देश्य के लिए निम्नलिखित कमांड का उपयोग करें -

audio_signal = audio_signal [:100]
time_axis = 1000 * np.arange(0, len(signal), 1) / float(frequency_sampling)

अब, नीचे दिए गए आदेशों का उपयोग करके संकेत की कल्पना करें -

plt.plot(time_axis, signal, color='blue')
plt.xlabel('Time (milliseconds)')
plt.ylabel('Amplitude')
plt.title('Input audio signal')
plt.show()

आप ऊपर दिए गए ऑडियो सिग्नल के लिए निकाले गए आउटपुट ग्राफ और डेटा को देख पाएंगे जैसा कि यहाँ चित्र में दिखाया गया है

Signal shape: (132300,)
Signal Datatype: int16
Signal duration: 3.0 seconds

ऑडियो सिग्नल की विशेषता: ट्रांसफ़ॉर्मिंग टू फ़्रीक्वेंसी डोमेन

ऑडियो सिग्नल की विशेषता में टाइम डोमेन सिग्नल को फ़्रीक्वेंसी डोमेन में बदलना और इसके फ़्रीक्वेंसी घटकों को समझना शामिल है। यह एक महत्वपूर्ण कदम है क्योंकि यह सिग्नल के बारे में बहुत सारी जानकारी देता है। आप इस परिवर्तन को करने के लिए फूरियर ट्रांसफॉर्म जैसे गणितीय टूल का उपयोग कर सकते हैं।

उदाहरण

निम्न उदाहरण दिखाता है, चरण-दर-चरण, सिग्नल को कैसे चिह्नित करना है, पायथन का उपयोग करके, जो एक फ़ाइल में संग्रहीत है। ध्यान दें कि यहाँ हम फूरियर ट्रांसफॉर्म गणितीय टूल का उपयोग करके इसे फ़्रीक्वेंसी डोमेन में परिवर्तित कर सकते हैं।

आवश्यक पैकेज आयात करें, जैसा कि यहाँ दिखाया गया है -

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile

अब, संग्रहीत ऑडियो फ़ाइल पढ़ें। यह दो मान लौटाएगा: नमूना आवृत्ति और ऑडियो सिग्नल। जहां यह कमांड में दिखाया गया है, वहां ऑडियो फ़ाइल का पथ प्रदान करें -

frequency_sampling, audio_signal = wavfile.read("/Users/admin/sample.wav")

इस चरण में, हम नीचे दिए गए आदेशों का उपयोग करते हुए, ऑडियो सिग्नल के नमूने की आवृत्ति, डेटा प्रकार के संकेत और इसकी अवधि जैसे मापदंडों को प्रदर्शित करेंगे।

print('\nSignal shape:', audio_signal.shape)
print('Signal Datatype:', audio_signal.dtype)
print('Signal duration:', round(audio_signal.shape[0] / 
float(frequency_sampling), 2), 'seconds')

इस चरण में, हमें संकेत को सामान्य करने की आवश्यकता है, जैसा कि निम्नलिखित कमांड में दिखाया गया है -

audio_signal = audio_signal / np.power(2, 15)

इस कदम में सिग्नल की लंबाई और आधी लंबाई को निकालना शामिल है। इस उद्देश्य के लिए निम्नलिखित कमांड का उपयोग करें -

length_signal = len(audio_signal)
half_length = np.ceil((length_signal + 1) / 2.0).astype(np.int)

अब, हमें फ़्रीक्वेंसी डोमेन में बदलने के लिए गणित उपकरण लागू करने की आवश्यकता है। यहां हम फूरियर ट्रांसफॉर्म का उपयोग कर रहे हैं।

signal_frequency = np.fft.fft(audio_signal)

अब, फ़्रीक्वेंसी डोमेन सिग्नल का सामान्यीकरण करें और इसे वर्गाकार करें -

signal_frequency = abs(signal_frequency[0:half_length]) / length_signal
signal_frequency **= 2

अगला, आवृत्ति रूपांतरित सिग्नल की लंबाई और आधी लंबाई निकालें -

len_fts = len(signal_frequency)

ध्यान दें कि फूरियर तब्दील संकेत को समायोजित किया जाना चाहिए और साथ ही विषम मामले के लिए भी।

if length_signal % 2:
   signal_frequency[1:len_fts] *= 2
else:
   signal_frequency[1:len_fts-1] *= 2

अब डेसिबल (dB) में पावर निकालें -

signal_power = 10 * np.log10(signal_frequency)

एक्स-अक्ष के लिए kHz में आवृत्ति समायोजित करें -

x_axis = np.arange(0, len_half, 1) * (frequency_sampling / length_signal) / 1000.0

अब, संकेत के लक्षण वर्णन की कल्पना इस प्रकार है -

plt.figure()
plt.plot(x_axis, signal_power, color='black')
plt.xlabel('Frequency (kHz)')
plt.ylabel('Signal power (dB)')
plt.show()

आप उपरोक्त कोड का आउटपुट ग्राफ देख सकते हैं जैसा कि नीचे दी गई छवि में दिखाया गया है -

मोनोटोन ऑडियो सिग्नल उत्पन्न करना

संकेतों के बारे में जानने के लिए अब तक आपके द्वारा देखे गए दो कदम महत्वपूर्ण हैं। अब, यह चरण उपयोगी होगा यदि आप कुछ पूर्वनिर्धारित मापदंडों के साथ ऑडियो सिग्नल उत्पन्न करना चाहते हैं। ध्यान दें कि यह चरण आउटपुट फ़ाइल में ऑडियो सिग्नल को बचाएगा।

उदाहरण

निम्नलिखित उदाहरण में, हम पायथन का उपयोग करके एक मोनोटोन सिग्नल उत्पन्न करने जा रहे हैं, जिसे एक फ़ाइल में संग्रहीत किया जाएगा। इसके लिए आपको निम्नलिखित कदम उठाने होंगे -

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import numpy as np
import matplotlib.pyplot as plt
from scipy.io.wavfile import write

वह फ़ाइल प्रदान करें जहाँ आउटपुट फ़ाइल को सहेजा जाना चाहिए

output_file = 'audio_signal_generated.wav'

अब, अपनी पसंद के मापदंडों को निर्दिष्ट करें, जैसा कि दिखाया गया है -

duration = 4 # in seconds
frequency_sampling = 44100 # in Hz
frequency_tone = 784
min_val = -4 * np.pi
max_val = 4 * np.pi

इस चरण में, हम ऑडियो सिग्नल उत्पन्न कर सकते हैं, जैसा कि दिखाया गया है -

t = np.linspace(min_val, max_val, duration * frequency_sampling)
audio_signal = np.sin(2 * np.pi * tone_freq * t)

अब, आउटपुट फ़ाइल में ऑडियो फ़ाइल सहेजें -

write(output_file, frequency_sampling, signal_scaled)

हमारे ग्राफ के लिए पहले 100 मान निकालें, जैसा कि दिखाया गया है -

audio_signal = audio_signal[:100]
time_axis = 1000 * np.arange(0, len(signal), 1) / float(sampling_freq)

अब, निम्नानुसार उत्पन्न ऑडियो सिग्नल की कल्पना करें -

plt.plot(time_axis, signal, color='blue')
plt.xlabel('Time in milliseconds')
plt.ylabel('Amplitude')
plt.title('Generated audio signal')
plt.show()

आप यहां दिए गए चित्र में दिखाए अनुसार भूखंड का अवलोकन कर सकते हैं -

भाषण से फ़ीचर निकालना

भाषण पहचानकर्ता के निर्माण में यह सबसे महत्वपूर्ण कदम है क्योंकि भाषण संकेत को आवृत्ति डोमेन में परिवर्तित करने के बाद, हमें इसे फीचर वेक्टर के प्रयोग करने योग्य रूप में परिवर्तित करना होगा। हम इस उद्देश्य के लिए विभिन्न सुविधा निष्कर्षण तकनीकों जैसे कि MFCC, PLP, PLP-RASTA आदि का उपयोग कर सकते हैं।

उदाहरण

निम्नलिखित उदाहरण में, हम सिग्नल, कदम-दर-चरण, पायथन का उपयोग करके, MFCC तकनीक का उपयोग करके सुविधाओं को निकालने जा रहे हैं।

आवश्यक पैकेज आयात करें, जैसा कि यहाँ दिखाया गया है -

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
from python_speech_features import mfcc, logfbank

अब, संग्रहीत ऑडियो फ़ाइल पढ़ें। यह दो मान लौटाएगा - नमूना आवृत्ति और ऑडियो सिग्नल। ऑडियो फ़ाइल का पथ प्रदान करें जहाँ यह संग्रहीत है।

frequency_sampling, audio_signal = wavfile.read("/Users/admin/audio_file.wav")

ध्यान दें कि यहां हम विश्लेषण के लिए पहले 15000 नमूने ले रहे हैं।

audio_signal = audio_signal[:15000]

एमएफसीसी तकनीकों का उपयोग करें और एमएफसीसी सुविधाओं को निकालने के लिए निम्नलिखित कमांड निष्पादित करें -

features_mfcc = mfcc(audio_signal, frequency_sampling)

अब, एमएफसीसी मापदंडों को प्रिंट करें, जैसा कि दिखाया गया है -

print('\nMFCC:\nNumber of windows =', features_mfcc.shape[0])
print('Length of each feature =', features_mfcc.shape[1])

अब, नीचे दिए गए आदेशों का उपयोग करके MFCC सुविधाओं की साजिश और कल्पना करें -

features_mfcc = features_mfcc.T
plt.matshow(features_mfcc)
plt.title('MFCC')

इस चरण में, हम दिखाए गए अनुसार फ़िल्टर बैंक सुविधाओं के साथ काम करते हैं -

फ़िल्टर बैंक सुविधाएँ निकालें -

filterbank_features = logfbank(audio_signal, frequency_sampling)

अब, फ़िल्टरबैंक मापदंडों को प्रिंट करें।

print('\nFilter bank:\nNumber of windows =', filterbank_features.shape[0])
print('Length of each feature =', filterbank_features.shape[1])

अब, फ़िल्टरबैंक सुविधाओं की साजिश और कल्पना करें।

filterbank_features = filterbank_features.T
plt.matshow(filterbank_features)
plt.title('Filter bank')
plt.show()

उपरोक्त चरणों के परिणामस्वरूप, आप निम्न आउटपुट देख सकते हैं: MFCC के लिए चित्र 1 और फ़िल्टर बैंक के लिए चित्र 2

स्पोकन वर्ड्स की मान्यता

भाषण मान्यता का मतलब है कि जब मनुष्य बोल रहे हैं, तो एक मशीन इसे समझती है। यहां हम ऐसा करने के लिए पायथन में Google भाषण एपीआई का उपयोग कर रहे हैं। इसके लिए हमें निम्नलिखित पैकेजों को स्थापित करना होगा -

  • Pyaudio - इसे इस्तेमाल करके इंस्टॉल किया जा सकता है pip install Pyaudio आदेश।

  • SpeechRecognition - इस पैकेज का उपयोग करके स्थापित किया जा सकता है pip install SpeechRecognition.

  • Google-Speech-API - इसे कमांड का इस्तेमाल करके इंस्टॉल किया जा सकता है pip install google-api-python-client

उदाहरण

बोले गए शब्दों की मान्यता के बारे में समझने के लिए निम्नलिखित उदाहरण देखें -

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import speech_recognition as sr

नीचे दिखाए अनुसार एक वस्तु बनाएं -

recording = sr.Recognizer()

अब Microphone() मॉड्यूल आवाज को इनपुट के रूप में लेगा -

with sr.Microphone() as source: recording.adjust_for_ambient_noise(source)
   print("Please Say something:")
   audio = recording.listen(source)

अब google API आवाज को पहचानता है और आउटपुट देता है।

try:
   print("You said: \n" + recording.recognize_google(audio))
except Exception as e:
   print(e)

आप निम्न आउटपुट देख सकते हैं -

Please Say Something:
You said:

उदाहरण के लिए, यदि आपने कहा tutorialspoint.com, तो सिस्टम इसे सही ढंग से पहचानता है -

tutorialspoint.com

कृत्रिम बुद्धि में ह्यूरिस्टिक खोज एक महत्वपूर्ण भूमिका निभाता है। इस अध्याय में, आप इसके बारे में विस्तार से जानेंगे।

एअर इंडिया में हेयुरिस्टिक सर्च की अवधारणा

ह्यूरिस्टिक अंगूठे का एक नियम है जो हमें संभावित समाधान की ओर ले जाता है। कृत्रिम बुद्धिमत्ता में अधिकांश समस्याएं घातीय प्रकृति की होती हैं और इसके कई संभावित समाधान होते हैं। आपको ठीक से पता नहीं है कि कौन से समाधान सही हैं और सभी समाधानों की जांच करना बहुत महंगा होगा।

इस प्रकार, हेयुरिस्टिक का उपयोग समाधान की खोज को धीमा कर देता है और गलत विकल्पों को समाप्त करता है। खोज स्थान में खोज का नेतृत्व करने के लिए हेयुरिस्टिक का उपयोग करने की विधि को हेयुरिस्टिक खोज कहा जाता है। ह्यूरिस्टिक तकनीक बहुत उपयोगी है क्योंकि जब आप उनका उपयोग करते हैं तो खोज को बढ़ाया जा सकता है।

Uninformed और Informed Search के बीच अंतर

दो प्रकार की नियंत्रण रणनीतियाँ या खोज तकनीक हैं: बिना सूचना और सूचना के। उन्हें विस्तार से बताया गया है -

बेख़बर खोज

इसे ब्लाइंड सर्च या ब्लाइंड कंट्रोल रणनीति भी कहा जाता है। इसका नाम इसलिए रखा गया है क्योंकि समस्या की परिभाषा के बारे में केवल जानकारी है, और राज्यों के बारे में कोई अतिरिक्त जानकारी उपलब्ध नहीं है। इस तरह की खोज तकनीक पूरे राज्य में समाधान प्राप्त करने के लिए खोज करेगी। चौड़ाई पहली खोज (BFS) और गहराई पहली खोज (DFS) बिन खोज के उदाहरण हैं।

सूचित किया गया खोज

इसे हेयुरिस्टिक सर्च या हेयुरिस्टिक कंट्रोल स्ट्रेटेजी भी कहा जाता है। इसका नाम इसलिए रखा गया है क्योंकि राज्यों के बारे में कुछ अतिरिक्त जानकारी है। यह अतिरिक्त जानकारी बच्चे के नोड्स में वरीयता का पता लगाने और विस्तार करने के लिए गणना करने के लिए उपयोगी है। प्रत्येक नोड के साथ जुड़ा हुआ एक यकृत समारोह होगा। सर्वश्रेष्ठ पहली खोज (BFS), A *, माध्य और विश्लेषण सूचित खोज के उदाहरण हैं।

बाधा संतुष्टि समस्याएं (सीएसपी)

बाधा का अर्थ है प्रतिबंध या सीमा। एअर इंडिया में, बाधा संतुष्टि समस्याएं वे समस्याएं हैं जिन्हें कुछ बाधाओं के तहत हल किया जाना चाहिए। इस तरह की समस्याओं को हल करते समय बाधा का उल्लंघन न करने पर ध्यान केंद्रित किया जाना चाहिए। अंत में, जब हम अंतिम समाधान तक पहुँचते हैं, तो CSP को प्रतिबंध का पालन करना चाहिए।

वास्तविक विश्व समस्या बाधा द्वारा हल की गई

पिछले अनुभागों ने बाधा संतोष समस्याएं पैदा करने से निपटा। अब, हम इसे वास्तविक विश्व की समस्याओं पर भी लागू करते हैं। वास्तविक संतुष्टि द्वारा हल की गई विश्व की समस्याओं के कुछ उदाहरण इस प्रकार हैं -

बीजगणितीय संबंध हल करना

बाधा संतुष्टि समस्या की मदद से, हम बीजीय संबंधों को हल कर सकते हैं। इस उदाहरण में, हम एक सरल बीजीय संबंध को हल करने का प्रयास करेंगेa*2 = b। इसका मान लौटाएगाa तथा b उस सीमा के भीतर जिसे हम परिभाषित करेंगे।

इस पायथन कार्यक्रम को पूरा करने के बाद, आप बाधा संतुष्टि के साथ समस्याओं को हल करने की मूल बातें समझने में सक्षम होंगे।

ध्यान दें कि प्रोग्राम लिखने से पहले, हमें अजगर पैकेज को पायथन-कॉन्स्ट्रेण्ट स्थापित करने की आवश्यकता है। आप इसे निम्न कमांड की सहायता से स्थापित कर सकते हैं -

pip install python-constraint

निम्नलिखित कदम आपको बाधा संतोष का उपयोग करके बीजीय संबंध को हल करने के लिए पायथन कार्यक्रम दिखाते हैं -

आयात करें constraint निम्नलिखित कमांड का उपयोग कर पैकेज -

from constraint import *

अब, नामित मॉड्यूल का एक ऑब्जेक्ट बनाएं problem() जैसा कि नीचे दिखाया गया है -

problem = Problem()

अब, चरों को परिभाषित करें। ध्यान दें कि यहां हमारे पास दो चर a और b हैं, और हम 10 को उनकी सीमा के रूप में परिभाषित कर रहे हैं, जिसका अर्थ है कि हमें पहले 10 नंबरों के भीतर समाधान मिला।

problem.addVariable('a', range(10))
problem.addVariable('b', range(10))

इसके बाद, उस विशेष बाधा को परिभाषित करें जिसे हम इस समस्या पर लागू करना चाहते हैं। निरीक्षण करें कि यहां हम बाधा का उपयोग कर रहे हैंa*2 = b

problem.addConstraint(lambda a, b: a * 2 == b)

अब, का उद्देश्य बनाएँ getSolution() निम्नलिखित कमांड का उपयोग कर मॉड्यूल -

solutions = problem.getSolutions()

अंत में, निम्न कमांड का उपयोग करके आउटपुट प्रिंट करें -

print (solutions)

आप उपरोक्त कार्यक्रम का आउटपुट निम्नानुसार देख सकते हैं -

[{'a': 4, 'b': 8}, {'a': 3, 'b': 6}, {'a': 2, 'b': 4}, {'a': 1, 'b': 2}, {'a': 0, 'b': 0}]

मैजिक स्क्वायर

एक मैजिक स्क्वायर अलग-अलग संख्याओं की व्यवस्था है, आम तौर पर पूर्णांक, एक वर्ग ग्रिड में, जहाँ प्रत्येक पंक्ति में संख्याएँ, और प्रत्येक कॉलम में और विकर्ण में संख्याएँ, सभी एक ही संख्या में जोड़ते हैं जिसे "जादू स्थिरांक" कहा जाता है। ।

निम्नलिखित जादू वर्गों के निर्माण के लिए सरल पायथन कोड का एक चरणबद्ध निष्पादन है -

नाम के एक फंक्शन को परिभाषित करें magic_square, जैसा कि नीचे दिखाया गया है -

def magic_square(matrix_ms):
   iSize = len(matrix_ms[0])
   sum_list = []

निम्नलिखित कोड वर्गों के ऊर्ध्वाधर के लिए कोड दिखाता है -

for col in range(iSize):
   sum_list.append(sum(row[col] for row in matrix_ms))

निम्नलिखित कोड वर्गों के क्षितिज के लिए कोड दिखाता है -

sum_list.extend([sum (lines) for lines in matrix_ms])

निम्नलिखित कोड वर्गों के क्षैतिज के लिए कोड दिखाता है -

dlResult = 0
for i in range(0,iSize):
   dlResult +=matrix_ms[i][i]
sum_list.append(dlResult)
drResult = 0
for i in range(iSize-1,-1,-1):
   drResult +=matrix_ms[i][i]
sum_list.append(drResult)

if len(set(sum_list))>1:
   return False
return True

अब, मैट्रिक्स का मान दें और आउटपुट की जाँच करें -

print(magic_square([[1,2,3], [4,5,6], [7,8,9]]))

आप देख सकते हैं कि आउटपुट होगा False जैसे कि योग समान संख्या तक नहीं है।

print(magic_square([[3,9,2], [3,5,7], [9,1,6]]))

आप देख सकते हैं कि आउटपुट होगा True जैसा कि सम संख्या है, वैसा ही है 15 यहाँ।

खेल एक रणनीति के साथ खेले जाते हैं। प्रत्येक खिलाड़ी या टीम खेल शुरू करने से पहले एक रणनीति बनाएगी और उन्हें खेल में वर्तमान स्थिति (स्थितियों) के अनुसार नई रणनीति बदलनी होगी या निर्माण करना होगा।

एल्गोरिदम खोजें

आपको कंप्यूटर गेम पर भी उसी रणनीति के साथ विचार करना होगा जैसा कि ऊपर बताया गया है। ध्यान दें कि खोज एल्गोरिदम वे हैं जो कंप्यूटर गेम में रणनीति का पता लगाते हैं।

यह काम किस प्रकार करता है

खोज एल्गोरिदम का लक्ष्य चालों का इष्टतम सेट ढूंढना है ताकि वे अंतिम गंतव्य तक पहुंच सकें और जीत सकें। ये एल्गोरिदम सर्वश्रेष्ठ चाल को खोजने के लिए, हर गेम के लिए अलग-अलग स्थितियों के जीतने वाले सेट का उपयोग करते हैं।

पेड़ के रूप में एक कंप्यूटर गेम की कल्पना करें। हम जानते हैं कि पेड़ में नोड्स होते हैं। जड़ से शुरू करके, हम अंतिम विजेता नोड पर आ सकते हैं, लेकिन इष्टतम चाल के साथ। यह खोज एल्गोरिदम का काम है। ऐसे पेड़ में प्रत्येक नोड भविष्य की स्थिति का प्रतिनिधित्व करता है। गेम के प्रत्येक चरण या नोड पर निर्णय लेने के लिए खोज एल्गोरिदम इस पेड़ के माध्यम से खोज करते हैं।

संयुक्त खोज

खोज एल्गोरिदम का उपयोग करने का मुख्य नुकसान यह है कि वे प्रकृति में संपूर्ण हैं, यही वजह है कि वे समाधान खोजने के लिए पूरे खोज स्थान का पता लगाते हैं जिससे संसाधनों का अपव्यय होता है। यह अधिक बोझिल होगा अगर इन एल्गोरिदम को अंतिम समाधान खोजने के लिए पूरे खोज स्थान की खोज करनी होगी।

इस तरह की समस्या को खत्म करने के लिए, हम कॉम्बीनेशन सर्च का उपयोग कर सकते हैं जो सर्च स्पेस का पता लगाने के लिए हेयुरिस्टिक का उपयोग करता है और संभावित गलत चालों को समाप्त करके इसके आकार को कम करता है। इसलिए, ऐसे एल्गोरिदम संसाधनों को बचा सकते हैं। अंतरिक्ष को खोजने और संसाधनों को बचाने के लिए कुछ एल्गोरिदम का उपयोग किया जाता है, यहां चर्चा की गई है -

मिनिमैक्स एल्गोरिथम

यह कॉम्बीनेशन खोज द्वारा उपयोग की जाने वाली रणनीति है जो खोज रणनीति को गति देने के लिए अनुमानी का उपयोग करता है। मिनिमैक्स रणनीति की अवधारणा को दो खिलाड़ी खेलों के उदाहरण से समझा जा सकता है, जिसमें प्रत्येक खिलाड़ी प्रतिद्वंद्वी के अगले कदम की भविष्यवाणी करने की कोशिश करता है और उस फ़ंक्शन को कम करने की कोशिश करता है। इसके अलावा, जीतने के लिए, खिलाड़ी हमेशा मौजूदा स्थिति के आधार पर अपने स्वयं के फ़ंक्शन को अधिकतम करने का प्रयास करता है।

इस तरह की रणनीतियों में हेयिमिस्टिक एक महत्वपूर्ण भूमिका निभाता है जैसे मिनिमैक्स। पेड़ के प्रत्येक नोड के साथ जुड़ा हुआ एक यकृत समारोह होगा। उस अनुमान के आधार पर, यह नोड की ओर एक कदम बनाने का निर्णय लेगा जिससे उन्हें सबसे अधिक फायदा होगा।

अल्फा-बीटा प्रूनिंग

मिनिमैक्स एल्गोरिथ्म के साथ एक प्रमुख मुद्दा यह है कि यह पेड़ के उन हिस्सों का पता लगा सकता है जो अप्रासंगिक हैं, संसाधनों की बर्बादी की ओर जाता है। इसलिए यह तय करने की रणनीति होनी चाहिए कि पेड़ का कौन सा हिस्सा प्रासंगिक है और कौन सा अप्रासंगिक है और अप्रासंगिक भाग को अस्पष्टीकृत छोड़ दें। अल्फा-बीटा प्रूनिंग इस तरह की एक रणनीति है।

अल्फा-बीटा प्रूनिंग एल्गोरिदम का मुख्य लक्ष्य पेड़ के उन हिस्सों की खोज से बचना है जिनके पास कोई समाधान नहीं है। अल्फा-बीटा प्रूनिंग की मुख्य अवधारणा नाम की दो सीमाओं का उपयोग करना हैAlphaअधिकतम निचले बाउंड, और Beta, न्यूनतम ऊपरी सीमा। ये दो पैरामीटर मान हैं जो संभव समाधान के सेट को प्रतिबंधित करते हैं। यह अल्फा और बीटा मापदंडों के मूल्य के साथ वर्तमान नोड के मूल्य की तुलना करता है, ताकि यह उस पेड़ के हिस्से में जा सके जिसके पास समाधान है और बाकी को त्याग दें।

नेगामैक्स एल्गोरिथम

यह एल्गोरिथ्म मिनिमैक्स एल्गोरिथ्म से अलग नहीं है, लेकिन इसमें अधिक सुरुचिपूर्ण कार्यान्वयन है। मिनिमैक्स एल्गोरिथ्म का उपयोग करने का मुख्य नुकसान यह है कि हमें दो अलग-अलग हेयुरिस्टिक कार्यों को परिभाषित करने की आवश्यकता है। इन हेयुरिस्टिक के बीच संबंध यह है कि, एक खिलाड़ी के लिए एक खेल की बेहतर स्थिति, दूसरे खिलाड़ी के लिए उतना ही बुरा है। नेगामैक्स एल्गोरिथ्म में, दो हेयुरिस्टिक फ़ंक्शंस का एक ही काम एकल हेयुरिस्टिक फ़ंक्शन की मदद से किया जाता है।

बिल्डिंग बॉट्स टू गेम्स गेम्स

एअर इंडिया में दो खिलाड़ी खेल खेलने के लिए बॉट बनाने के लिए, हमें स्थापित करने की आवश्यकता है easyAIपुस्तकालय। यह एक आर्टिफिशियल इंटेलिजेंस फ्रेमवर्क है जो दो-प्लेयर गेम बनाने के लिए सभी कार्यक्षमता प्रदान करता है। आप इसे निम्न कमांड की सहायता से डाउनलोड कर सकते हैं -

pip install easyAI

अंतिम सिक्का खड़े होने के लिए एक बॉट

इस खेल में, सिक्कों का ढेर होता। प्रत्येक खिलाड़ी को उस ढेर से कई सिक्के लेने होते हैं। खेल का लक्ष्य ढेर में अंतिम सिक्का लेने से बचना है। हम कक्षा का उपयोग करेंगेLastCoinStanding से विरासत में मिला TwoPlayersGame की कक्षा easyAIपुस्तकालय। निम्नलिखित कोड इस खेल के लिए पायथन कोड दिखाता है -

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

from easyAI import TwoPlayersGame, id_solve, Human_Player, AI_Player
from easyAI.AI import TT

अब, वर्ग को इनहेरिट करें TwoPlayerGame खेल के सभी संचालन को संभालने के लिए वर्ग -

class LastCoin_game(TwoPlayersGame):
   def __init__(self, players):

अब, उन खिलाड़ियों और खिलाड़ी को परिभाषित करें जो खेल शुरू करने जा रहे हैं।

self.players = players
self.nplayer = 1

अब, खेल में सिक्कों की संख्या को परिभाषित करें, यहाँ हम खेल के लिए 15 सिक्कों का उपयोग कर रहे हैं।

self.num_coins = 15

एक चाल में अधिकतम जितने सिक्के एक खिलाड़ी ले सकता है, उसे परिभाषित करें।

self.max_coins = 4

अब निम्न कोड में दिखाए गए अनुसार परिभाषित करने के लिए कुछ निश्चित चीजें हैं। संभावित चाल को परिभाषित करें।

def possible_moves(self):
   return [str(a) for a in range(1, self.max_coins + 1)]

सिक्कों को हटाने को परिभाषित करें

def make_move(self, move):
   self.num_coins -= int(move)

परिभाषित करें कि अंतिम सिक्का किसने लिया।

def win_game(self):
   return self.num_coins <= 0

खेल को रोकने के लिए परिभाषित करें, जब कोई जीतता है।

def is_over(self):
   return self.win()

स्कोर की गणना कैसे करें परिभाषित करें।

def score(self):
   return 100 if self.win_game() else 0

ढेर में बचे सिक्कों की संख्या निर्धारित करें।

def show(self):
   print(self.num_coins, 'coins left in the pile')
if __name__ == "__main__":
   tt = TT()
   LastCoin_game.ttentry = lambda self: self.num_coins

निम्नलिखित कोड ब्लॉक के साथ खेल को हल करना -

r, d, m = id_solve(LastCoin_game,
   range(2, 20), win_score=100, tt=tt)
print(r, d, m)

निर्णय लेना कि कौन खेल शुरू करेगा

game = LastCoin_game([AI_Player(tt), Human_Player()])
game.play()

आप निम्न आउटपुट और इस खेल का एक सरल खेल पा सकते हैं -

d:2, a:0, m:1
d:3, a:0, m:1
d:4, a:0, m:1
d:5, a:0, m:1
d:6, a:100, m:4
1 6 4
15 coins left in the pile
Move #1: player 1 plays 4 :
11 coins left in the pile
Player 2 what do you play ? 2
Move #2: player 2 plays 2 :
9 coins left in the pile
Move #3: player 1 plays 3 :
6 coins left in the pile
Player 2 what do you play ? 1
Move #4: player 2 plays 1 :
5 coins left in the pile
Move #5: player 1 plays 4 :
1 coins left in the pile
Player 2 what do you play ? 1
Move #6: player 2 plays 1 :
0 coins left in the pile

टिक टीएसी को पैर की अंगुली खेलने के लिए एक बॉट

टिक-टैक-टो बहुत लोकप्रिय है और सबसे लोकप्रिय खेलों में से एक है। आइए हम इस गेम का उपयोग करके बनाते हैंeasyAIपाइथन में पुस्तकालय। निम्नलिखित कोड इस खेल का पायथन कोड है -

दिखाए अनुसार पैकेज आयात करें -

from easyAI import TwoPlayersGame, AI_Player, Negamax
from easyAI.Player import Human_Player

से कक्षा में प्रवेश करें TwoPlayerGame खेल के सभी संचालन को संभालने के लिए वर्ग -

class TicTacToe_game(TwoPlayersGame):
   def __init__(self, players):

अब, खेल शुरू करने जा रहे खिलाड़ियों और खिलाड़ी को परिभाषित करें -

self.players = players
self.nplayer = 1

बोर्ड के प्रकार को परिभाषित करें -

self.board = [0] * 9

अब इस प्रकार परिभाषित करने के लिए कुछ निश्चित चीजें हैं -

संभावित चाल को परिभाषित करें

def possible_moves(self):
   return [x + 1 for x, y in enumerate(self.board) if y == 0]

खिलाड़ी की चाल को परिभाषित करें -

def make_move(self, move):
   self.board[int(move) - 1] = self.nplayer

एआई को बढ़ावा देने के लिए, परिभाषित करें कि खिलाड़ी कब कदम रखता है -

def umake_move(self, move):
   self.board[int(move) - 1] = 0

हारने की स्थिति को परिभाषित करें कि एक प्रतिद्वंद्वी के पास एक पंक्ति में तीन हैं

def condition_for_lose(self):
   possible_combinations = [[1,2,3], [4,5,6], [7,8,9],
      [1,4,7], [2,5,8], [3,6,9], [1,5,9], [3,5,7]]
   return any([all([(self.board[z-1] == self.nopponent)
      for z in combination]) for combination in possible_combinations])

खेल की समाप्ति के लिए एक जांच को परिभाषित करें

def is_over(self):
   return (self.possible_moves() == []) or self.condition_for_lose()

खेल में खिलाड़ियों की वर्तमान स्थिति दिखाएं

def show(self):
   print('\n'+'\n'.join([' '.join([['.', 'O', 'X'][self.board[3*j + i]]
      for i in range(3)]) for j in range(3)]))

अंकों की गणना करें।

def scoring(self):
   return -100 if self.condition_for_lose() else 0

एल्गोरिथ्म को परिभाषित करने और खेल शुरू करने के लिए मुख्य विधि को परिभाषित करें -

if __name__ == "__main__":
   algo = Negamax(7)
   TicTacToe_game([Human_Player(), AI_Player(algo)]).play()

आप निम्न आउटपुट और इस गेम का एक सरल खेल देख सकते हैं -

. . .
. . .
. . .
Player 1 what do you play ? 1
Move #1: player 1 plays 1 :
O . .
. . .
. . .
Move #2: player 2 plays 5 :
O . .
. X .
121
. . .
Player 1 what do you play ? 3
Move #3: player 1 plays 3 :
O . O
. X .
. . .
Move #4: player 2 plays 2 :
O X O
. X .
. . .
Player 1 what do you play ? 4
Move #5: player 1 plays 4 :
O X O
O X .
. . .
Move #6: player 2 plays 8 :
O X O
O X .
. X .

तंत्रिका नेटवर्क समानांतर कंप्यूटिंग डिवाइस हैं जो मस्तिष्क का कंप्यूटर मॉडल बनाने का प्रयास है। पीछे मुख्य उद्देश्य पारंपरिक प्रणालियों की तुलना में तेजी से विभिन्न कम्प्यूटेशनल कार्य करने के लिए एक प्रणाली विकसित करना है। इन कार्यों में पैटर्न रिकॉग्निशन और वर्गीकरण, अनुमोदन, अनुकूलन और डेटा क्लस्टरिंग शामिल हैं।

कृत्रिम तंत्रिका नेटवर्क (ANN) क्या है

आर्टिफिशियल न्यूरल नेटवर्क (ANN) एक कुशल कंप्यूटिंग सिस्टम है जिसका केंद्रीय विषय जैविक तंत्रिका नेटवर्क के सादृश्य से उधार लिया गया है। ANN को आर्टिफिशियल न्यूरल सिस्टम, पैरेलल डिस्ट्रिब्यूटेड प्रोसेसिंग सिस्टम और कनैक्टिस्ट सिस्टम के नाम से भी जाना जाता है। एएनएन उन इकाइयों के बड़े संग्रह का अधिग्रहण करता है जो उनके बीच संचार की अनुमति देने के लिए कुछ पैटर्न में परस्पर जुड़े होते हैं। इन इकाइयों के रूप में भी जाना जाता हैnodes या neurons, सरल प्रोसेसर हैं जो समानांतर में काम करते हैं।

प्रत्येक न्यूरॉन एक के माध्यम से अन्य न्यूरॉन के साथ जुड़ा हुआ है connection link। प्रत्येक कनेक्शन लिंक एक भार से जुड़ा होता है जिसमें इनपुट सिग्नल के बारे में जानकारी होती है। यह न्यूरॉन्स के लिए किसी विशेष समस्या को हल करने के लिए सबसे उपयोगी जानकारी है क्योंकिweightआमतौर पर उस सिग्नल को उत्तेजित या बाधित करता है जिसे संचार किया जा रहा है। प्रत्येक न्यूरॉन की अपनी आंतरिक स्थिति होती है जिसे कहा जाता हैactivation signal। आउटपुट सिग्नल, जो इनपुट सिग्नल और सक्रियण नियम के संयोजन के बाद उत्पन्न होते हैं, अन्य इकाइयों को भेजे जा सकते हैं।

यदि आप तंत्रिका नेटवर्क का विस्तार से अध्ययन करना चाहते हैं तो आप लिंक का अनुसरण कर सकते हैं - कृत्रिम तंत्रिका नेटवर्क ।

उपयोगी पैकेज स्थापित करना

पायथन में तंत्रिका नेटवर्क बनाने के लिए, हम तंत्रिका नेटवर्क नामक एक शक्तिशाली पैकेज का उपयोग कर सकते हैं NeuroLab। यह बुनियादी तंत्रिका नेटवर्क एल्गोरिदम का एक पुस्तकालय है जिसमें लचीला नेटवर्क कॉन्फ़िगरेशन और पायथन के लिए एल्गोरिदम सीखना है। आप कमांड प्रॉम्प्ट पर निम्नलिखित कमांड की मदद से इस पैकेज को स्थापित कर सकते हैं -

pip install NeuroLab

यदि आप एनाकोंडा पर्यावरण का उपयोग कर रहे हैं, तो न्यूरोलैब स्थापित करने के लिए निम्न कमांड का उपयोग करें -

conda install -c labfabulous neurolab

भवन निर्माण तंत्रिका नेटवर्क

इस खंड में, हम न्यूरलैब पैकेज का उपयोग करके पायथन में कुछ तंत्रिका नेटवर्क का निर्माण करते हैं।

परसेप्ट्रॉन आधारित क्लासिफायर

Perceptrons ANN के बिल्डिंग ब्लॉक्स हैं। आप perceptron के बारे में अधिक जानना चाहते हैं, तो आप लिंक का पालन कर सकते हैं - artificial_neural_network

निम्नलिखित एक सरल तंत्रिका नेटवर्क perceptron आधारित क्लासिफायरियर के निर्माण के लिए पायथन कोड का एक चरणबद्ध निष्पादन है -

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import matplotlib.pyplot as plt
import neurolab as nl

इनपुट मान दर्ज करें। ध्यान दें कि यह पर्यवेक्षित शिक्षण का एक उदाहरण है, इसलिए आपको लक्ष्य मान भी प्रदान करने होंगे।

input = [[0, 0], [0, 1], [1, 0], [1, 1]]
target = [[0], [0], [0], [1]]

2 इनपुट और 1 न्यूरॉन के साथ नेटवर्क बनाएं -

net = nl.net.newp([[0, 1],[0, 1]], 1)

अब, नेटवर्क को प्रशिक्षित करें। यहां, हम प्रशिक्षण के लिए डेल्टा नियम का उपयोग कर रहे हैं।

error_progress = net.train(input, target, epochs=100, show=10, lr=0.1)

अब, आउटपुट की कल्पना करें और ग्राफ को प्लॉट करें -

plt.figure()
plt.plot(error_progress)
plt.xlabel('Number of epochs')
plt.ylabel('Training error')
plt.grid()
plt.show()

आप त्रुटि मीट्रिक का उपयोग करके प्रशिक्षण प्रगति दिखाते हुए निम्नलिखित ग्राफ देख सकते हैं -

सिंगल - लेयर न्यूरल नेटवर्क

इस उदाहरण में, हम एक एकल परत तंत्रिका नेटवर्क बना रहे हैं जिसमें आउटपुट का उत्पादन करने के लिए इनपुट डेटा पर अभिनय करने वाले स्वतंत्र न्यूरॉन्स होते हैं। ध्यान दें कि हम नाम की पाठ फ़ाइल का उपयोग कर रहे हैंneural_simple.txt हमारे इनपुट के रूप में।

दिखाए गए अनुसार उपयोगी पैकेज आयात करें -

import numpy as np
import matplotlib.pyplot as plt
import neurolab as nl

इस प्रकार डेटासेट लोड करें -

input_data = np.loadtxt(“/Users/admin/neural_simple.txt')

निम्नलिखित डेटा है जिसका हम उपयोग करने जा रहे हैं। ध्यान दें कि इस डेटा में, पहले दो कॉलम फीचर्स हैं और अंतिम दो कॉलम लेबल हैं।

array([[2. , 4. , 0. , 0. ],
      [1.5, 3.9, 0. , 0. ],
      [2.2, 4.1, 0. , 0. ],
      [1.9, 4.7, 0. , 0. ],
      [5.4, 2.2, 0. , 1. ],
      [4.3, 7.1, 0. , 1. ],
      [5.8, 4.9, 0. , 1. ],
      [6.5, 3.2, 0. , 1. ],
      [3. , 2. , 1. , 0. ],
      [2.5, 0.5, 1. , 0. ],
      [3.5, 2.1, 1. , 0. ],
      [2.9, 0.3, 1. , 0. ],
      [6.5, 8.3, 1. , 1. ],
      [3.2, 6.2, 1. , 1. ],
      [4.9, 7.8, 1. , 1. ],
      [2.1, 4.8, 1. , 1. ]])

अब, इन चार स्तंभों को 2 डेटा कॉलम और 2 लेबल में अलग करें -

data = input_data[:, 0:2]
labels = input_data[:, 2:]

निम्नलिखित आदेशों का उपयोग करके इनपुट डेटा को प्लॉट करें -

plt.figure()
plt.scatter(data[:,0], data[:,1])
plt.xlabel('Dimension 1')
plt.ylabel('Dimension 2')
plt.title('Input data')

अब, प्रत्येक आयाम के लिए न्यूनतम और अधिकतम मान निर्धारित करें जैसा कि यहाँ दिखाया गया है -

dim1_min, dim1_max = data[:,0].min(), data[:,0].max()
dim2_min, dim2_max = data[:,1].min(), data[:,1].max()

अगला, उत्पादन परत में न्यूरॉन्स की संख्या को निम्नानुसार परिभाषित करें -

nn_output_layer = labels.shape[1]

अब, एकल-परत तंत्रिका नेटवर्क को परिभाषित करें -

dim1 = [dim1_min, dim1_max]
dim2 = [dim2_min, dim2_max]
neural_net = nl.net.newp([dim1, dim2], nn_output_layer)

दिखाए गए अनुसार युगों और सीखने की दर के साथ तंत्रिका नेटवर्क को प्रशिक्षित करें -

error = neural_net.train(data, labels, epochs = 200, show = 20, lr = 0.01)

अब, निम्नलिखित कमांड्स का उपयोग करके प्रशिक्षण प्रगति की कल्पना और साजिश करें -

plt.figure()
plt.plot(error)
plt.xlabel('Number of epochs')
plt.ylabel('Training error')
plt.title('Training error progress')
plt.grid()
plt.show()

अब, ऊपर दिए गए वर्गीकरण में परीक्षण डेटा बिंदुओं का उपयोग करें -

print('\nTest Results:')
data_test = [[1.5, 3.2], [3.6, 1.7], [3.6, 5.7],[1.6, 3.9]] for item in data_test:
   print(item, '-->', neural_net.sim([item])[0])

आप यहाँ दिखाए गए अनुसार परीक्षा परिणाम देख सकते हैं -

[1.5, 3.2] --> [1. 0.]
[3.6, 1.7] --> [1. 0.]
[3.6, 5.7] --> [1. 1.]
[1.6, 3.9] --> [1. 0.]

आप अब तक चर्चा किए गए कोड के आउटपुट के रूप में निम्नलिखित ग्राफ देख सकते हैं -

बहु परत तंत्रिका नेटवर्क

इस उदाहरण में, हम एक बहु-परत तंत्रिका नेटवर्क बना रहे हैं जिसमें प्रशिक्षण डेटा में अंतर्निहित पैटर्न को निकालने के लिए एक से अधिक परत शामिल हैं। यह बहुपरत तंत्रिका नेटवर्क एक प्रतिगामी की तरह काम करेगा। हम समीकरण के आधार पर कुछ डेटा बिंदु उत्पन्न करने जा रहे हैं: y = 2x 2 +8।

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import numpy as np
import matplotlib.pyplot as plt
import neurolab as nl

उपर्युक्त समीकरण के आधार पर कुछ डेटा बिंदु उत्पन्न करें -

min_val = -30
max_val = 30
num_points = 160
x = np.linspace(min_val, max_val, num_points)
y = 2 * np.square(x) + 8
y /= np.linalg.norm(y)

अब, इस डेटा को इस प्रकार सेट करें -

data = x.reshape(num_points, 1)
labels = y.reshape(num_points, 1)

निम्न आदेशों का उपयोग करके इनपुट डेटा सेट को विज़ुअलाइज़ और प्लॉट करें -

plt.figure()
plt.scatter(data, labels)
plt.xlabel('Dimension 1')
plt.ylabel('Dimension 2')
plt.title('Data-points')

अब, दो छिपे हुए परतों वाले तंत्रिका नेटवर्क का निर्माण करें neurolab साथ में ten पहली छिपी परत में न्यूरॉन्स, six दूसरी छिपी हुई परत में और one आउटपुट लेयर में।

neural_net = nl.net.newff([[min_val, max_val]], [10, 6, 1])

अब ढाल प्रशिक्षण एल्गोरिथ्म का उपयोग करें -

neural_net.trainf = nl.train.train_gd

अब ऊपर दिए गए डेटा पर सीखने के लक्ष्य के साथ नेटवर्क को प्रशिक्षित करें -

error = neural_net.train(data, labels, epochs = 1000, show = 100, goal = 0.01)

अब, प्रशिक्षण डेटा बिंदुओं पर तंत्रिका नेटवर्क चलाएं -

output = neural_net.sim(data)
y_pred = output.reshape(num_points)

अब प्लॉट और विज़ुअलाइज़ेशन कार्य -

plt.figure()
plt.plot(error)
plt.xlabel('Number of epochs')
plt.ylabel('Error')
plt.title('Training error progress')

अब हम वास्तविक बनाम अनुमानित उत्पादन की साजिश रचेंगे -

x_dense = np.linspace(min_val, max_val, num_points * 2)
y_dense_pred = neural_net.sim(x_dense.reshape(x_dense.size,1)).reshape(x_dense.size)
plt.figure()
plt.plot(x_dense, y_dense_pred, '-', x, y, '.', x, y_pred, 'p')
plt.title('Actual vs predicted')
plt.show()

उपरोक्त आदेशों के परिणामस्वरूप, आप नीचे दिखाए गए रेखांकन देख सकते हैं -

इस अध्याय में, आप पायथन के साथ एआई में अवधारणाओं के सुदृढीकरण सीखने के बारे में विस्तार से जानेंगे।

सुदृढीकरण सीखने की मूल बातें

इस प्रकार के अधिगम का उपयोग आलोचकीय सूचना के आधार पर नेटवर्क को सुदृढ़ करने या मजबूत करने के लिए किया जाता है। यही है, सुदृढीकरण सीखने के तहत प्रशिक्षित किया जा रहा नेटवर्क, पर्यावरण से कुछ प्रतिक्रिया प्राप्त करता है। हालाँकि, फीडबैक मूल्यांकनात्मक है और न कि शिक्षाप्रद अधिगम के मामले में शिक्षाप्रद है। इस फीडबैक के आधार पर, नेटवर्क भविष्य में बेहतर आलोचकों की जानकारी प्राप्त करने के लिए भार का समायोजन करता है।

यह सीखने की प्रक्रिया पर्यवेक्षित सीखने के समान है लेकिन हमारे पास बहुत कम जानकारी हो सकती है। निम्नलिखित आंकड़ा सुदृढीकरण सीखने के ब्लॉक आरेख देता है -

बिल्डिंग ब्लॉक्स: पर्यावरण और एजेंट

पर्यावरण और एजेंट एआई में सुदृढीकरण सीखने के मुख्य निर्माण खंड हैं। यह खंड उन पर विस्तार से चर्चा करता है -

एजेंट

एक एजेंट कुछ भी है जो सेंसर के माध्यम से अपने वातावरण को महसूस कर सकता है और प्रभावकारों के माध्यम से उस वातावरण पर कार्य करता है।

  • human agent संवेदकों के समानांतर आंखें, कान, नाक, जीभ और त्वचा जैसे संवेदी अंग होते हैं, और अन्य अंग जैसे कि हाथ, पैर, मुंह, प्रभावों के लिए।

  • robotic agent सेंसर के लिए कैमरा और इन्फ्रारेड रेंज फाइंडर्स और इफैक्टर्स के लिए विभिन्न मोटर्स और एक्ट्यूएटर्स की जगह।

  • software agent अपने कार्यक्रमों और कार्यों के रूप में बिट स्ट्रिंग्स को इनकोड किया है।

एजेंट शब्दावली

AI में सुदृढीकरण सीखने में निम्नलिखित शब्दों का अधिक बार उपयोग किया जाता है -

  • Performance Measure of Agent - यह मापदंड है, जो यह निर्धारित करता है कि एक एजेंट कितना सफल है।

  • Behavior of Agent - यह वह क्रिया है जो एजेंट किसी भी दिए गए अनुक्रम के बाद करता है।

  • Percept - यह एक दिए गए उदाहरण में एजेंट का अवधारणात्मक इनपुट है।

  • Percept Sequence - यह सभी का इतिहास है कि एक एजेंट ने आज तक माना है।

  • Agent Function - यह एक कार्रवाई के लिए पूर्व-अनुक्रम अनुक्रम से एक नक्शा है।

वातावरण

कुछ कार्यक्रम पूरी तरह से संचालित होते हैं artificial environment एक स्क्रीन पर कीबोर्ड इनपुट, डेटाबेस, कंप्यूटर फाइल सिस्टम और कैरेक्टर आउटपुट तक ही सीमित है।

इसके विपरीत, कुछ सॉफ्टवेयर एजेंट, जैसे सॉफ्टवेयर रोबोट या सॉफ्टबोट, अमीर और असीमित सॉफ्टबोट डोमेन में मौजूद हैं। सिम्युलेटर में एक हैvery detailed, तथा complex environment। सॉफ़्टवेयर एजेंट को वास्तविक समय में क्रियाओं की एक लंबी सरणी से चुनने की आवश्यकता होती है।

उदाहरण के लिए, ग्राहक की ऑनलाइन प्राथमिकताओं को स्कैन करने और ग्राहक के कामों में दिलचस्प वस्तुओं को प्रदर्शित करने के लिए डिज़ाइन किया गया सॉफ्टबॉट real साथ ही ए artificial वातावरण।

पर्यावरण के गुण

नीचे चर्चा के अनुसार पर्यावरण में गुणक गुण हैं -

  • Discrete/Continuous- यदि सीमित, स्पष्ट रूप से परिभाषित, पर्यावरण की स्थिति सीमित संख्या में हैं, तो पर्यावरण असतत है, अन्यथा यह निरंतर है। उदाहरण के लिए, शतरंज एक असतत वातावरण है और ड्राइविंग एक सतत वातावरण है।

  • Observable/Partially Observable- यदि हर बार बिंदुओं से पर्यावरण की पूर्ण स्थिति का निर्धारण करना संभव है, तो यह अवलोकनीय है; अन्यथा यह केवल आंशिक रूप से अवलोकनीय है।

  • Static/Dynamic- यदि एजेंट काम कर रहा है तो वातावरण नहीं बदलता है, तो यह स्थिर है; अन्यथा यह गतिशील है।

  • Single agent/Multiple agents - पर्यावरण में अन्य एजेंट शामिल हो सकते हैं जो एजेंट के समान या भिन्न प्रकार के हो सकते हैं।

  • Accessible/Inaccessible- यदि एजेंट के संवेदी तंत्र में पर्यावरण की पूर्ण स्थिति तक पहुंच हो सकती है, तो पर्यावरण उस एजेंट के लिए सुलभ है; अन्यथा यह दुर्गम है।

  • Deterministic/Non-deterministic- यदि पर्यावरण की अगली स्थिति वर्तमान स्थिति और एजेंट के कार्यों से पूरी तरह से निर्धारित होती है, तो पर्यावरण नियतात्मक है; अन्यथा यह गैर-निर्धारक है।

  • Episodic/Non-episodic- एक एपिसोडिक माहौल में, प्रत्येक एपिसोड में एजेंट की धारणा और फिर अभिनय होता है। इसकी कार्रवाई की गुणवत्ता केवल एपिसोड पर निर्भर करती है। बाद के एपिसोड पिछले एपिसोड में कार्रवाई पर निर्भर नहीं करते हैं। एपिसोड का वातावरण बहुत सरल है क्योंकि एजेंट को आगे सोचने की आवश्यकता नहीं है।

पायथन के साथ एक पर्यावरण का निर्माण

सुदृढीकरण सीखने के एजेंट के निर्माण के लिए, हम इसका उपयोग करेंगे OpenAI Gym पैकेज जो निम्नलिखित कमांड की मदद से स्थापित किया जा सकता है -

pip install gym

ओपनएआई जिम में विभिन्न वातावरण हैं जिनका उपयोग विभिन्न उद्देश्यों के लिए किया जा सकता है। उनमें से कुछ हैंCartpole-v0, Hopper-v1, तथा MsPacman-v0। उन्हें विभिन्न इंजनों की आवश्यकता होती है। का विस्तार प्रलेखनOpenAI Gym पर पाया जा सकता है https://gym.openai.com/docs/#environments।

निम्नलिखित कोड कार्टपोल-वी 0 पर्यावरण के लिए पायथन कोड का एक उदाहरण दिखाता है -

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
   env.render()
   env.step(env.action_space.sample())

आप एक समान तरीके से अन्य वातावरण बना सकते हैं।

अजगर के साथ एक सीखने के एजेंट का निर्माण

सुदृढीकरण सीखने के एजेंट के निर्माण के लिए, हम इसका उपयोग करेंगे OpenAI Gym पैकेज के रूप में दिखाया गया है -

import gym
env = gym.make('CartPole-v0')
for _ in range(20):
   observation = env.reset()
   for i in range(100):
      env.render()
      print(observation)
      action = env.action_space.sample()
      observation, reward, done, info = env.step(action)
      if done:
         print("Episode finished after {} timesteps".format(i+1))
         break

निरीक्षण करें कि कार्टपोल खुद को संतुलित कर सकता है।

इस अध्याय में AI के जेनेटिक एल्गोरिदम पर विस्तार से चर्चा की गई है।

जेनेटिक एल्गोरिदम क्या हैं?

जेनेटिक एल्गोरिदम (GAs) प्राकृतिक चयन और आनुवंशिकी की अवधारणाओं के आधार पर खोज आधारित एल्गोरिदम हैं। GAs संगणना की एक बहुत बड़ी शाखा का एक उपसमूह है जिसे विकासवादी संगणना के रूप में जाना जाता है।

GA को जॉन हॉलैंड और उनके छात्रों और सहयोगियों द्वारा मिशिगन विश्वविद्यालय में विकसित किया गया था, विशेष रूप से डेविड ई। गोल्डबर्ग। इसके बाद से उच्च अनुकूलन सफलता के साथ विभिन्न अनुकूलन समस्याओं पर प्रयास किया गया है।

जीएएस में, हमारे पास दी गई समस्या के संभावित समाधानों का एक पूल है। ये समाधान तब पुनर्संयोजन और उत्परिवर्तन (प्राकृतिक आनुवंशिकी की तरह) से गुजरते हैं, नए बच्चे पैदा करते हैं, और प्रक्रिया विभिन्न पीढ़ियों के लिए दोहराई जाती है। प्रत्येक व्यक्ति (या उम्मीदवार समाधान) को एक फिटनेस मूल्य (इसके उद्देश्य समारोह मूल्य के आधार पर) सौंपा गया है और फिटर व्यक्तियों को मेट और उपज के लिए एक उच्च मौका दिया जाता है।fitterव्यक्तियों। यह डार्विनियन थ्योरी के अनुरूप हैSurvival of the Fittest

इस प्रकार, यह रहता है evolving बेहतर व्यक्तियों या पीढ़ियों पर समाधान, जब तक यह एक रोक मानदंड तक नहीं पहुंचता है।

आनुवंशिक एल्गोरिथ्म प्रकृति में पर्याप्त रूप से यादृच्छिक रूप से यादृच्छिक हैं, लेकिन वे यादृच्छिक स्थानीय खोज की तुलना में बहुत बेहतर प्रदर्शन करते हैं (जहां हम अभी तक यादृच्छिक समाधान की कोशिश करते हैं, अब तक का सबसे अच्छा ट्रैक रखते हुए), क्योंकि वे ऐतिहासिक जानकारी का भी शोषण करते हैं।

अनुकूलन समस्याओं के लिए GA का उपयोग कैसे करें?

अनुकूलन डिजाइन, स्थिति, संसाधन और प्रणाली को यथासंभव प्रभावी बनाने की एक क्रिया है। निम्नलिखित ब्लॉक आरेख अनुकूलन प्रक्रिया को दर्शाता है -

अनुकूलन प्रक्रिया के लिए GA तंत्र के चरण

समस्याओं के अनुकूलन के लिए उपयोग किए जाने पर GA तंत्र के चरणों का एक क्रम निम्नलिखित है।

  • चरण 1 - प्रारंभिक आबादी को यादृच्छिक रूप से उत्पन्न करें।

  • चरण 2 - सर्वोत्तम फिटनेस मूल्यों के साथ प्रारंभिक समाधान का चयन करें।

  • चरण 3 - म्यूटेशन और क्रॉसओवर ऑपरेटरों का उपयोग करके चयनित समाधानों को पुन: निर्धारित करें।

  • चरण 4 - जनसंख्या में एक वंश डालें।

  • चरण 5 - अब, यदि स्टॉप की स्थिति पूरी हो गई है, तो उनके सर्वोत्तम फिटनेस मूल्य के साथ समाधान वापस करें। एल्स चरण 2 पर जाएं।

आवश्यक पैकेज स्थापित करना

पायथन में जेनेटिक एल्गोरिदम का उपयोग करके समस्या को हल करने के लिए, हम जीए नामक एक शक्तिशाली पैकेज का उपयोग करने जा रहे हैं DEAP। यह तेजी से प्रोटोटाइप और विचारों के परीक्षण के लिए उपन्यास विकासवादी संगणना ढांचे का एक पुस्तकालय है। हम कमांड प्रॉम्प्ट पर निम्नलिखित कमांड की मदद से इस पैकेज को स्थापित कर सकते हैं -

pip install deap

यदि आप उपयोग कर रहे हैं anaconda वातावरण, फिर निम्न आदेश का उपयोग ह्वेल स्थापित करने के लिए किया जा सकता है -

conda install -c conda-forge deap

जेनेटिक एल्गोरिदम का उपयोग कर समाधान लागू करना

यह खंड आपको जेनेटिक एल्गोरिदम का उपयोग करके समाधान के कार्यान्वयन के बारे में बताता है।

बिट पैटर्न बनाना

निम्न उदाहरण आपको दिखाता है कि एक बिट स्ट्रिंग कैसे उत्पन्न होती है जिसमें 15 लोग शामिल होंगे, इसके आधार पर One Max मुसीबत।

दिखाए गए अनुसार आवश्यक पैकेज आयात करें -

import random
from deap import base, creator, tools

मूल्यांकन समारोह को परिभाषित करें। यह एक आनुवंशिक एल्गोरिथ्म बनाने के लिए पहला कदम है।

def eval_func(individual):
   target_sum = 15
   return len(individual) - abs(sum(individual) - target_sum),

अब, सही मापदंडों के साथ टूलबॉक्स बनाएं -

def create_toolbox(num_bits):
   creator.create("FitnessMax", base.Fitness, weights=(1.0,))
   creator.create("Individual", list, fitness=creator.FitnessMax)

टूलबॉक्स को प्रारंभ करें

toolbox = base.Toolbox()
toolbox.register("attr_bool", random.randint, 0, 1)
toolbox.register("individual", tools.initRepeat, creator.Individual,
   toolbox.attr_bool, num_bits)
toolbox.register("population", tools.initRepeat, list, toolbox.individual)

मूल्यांकन ऑपरेटर पंजीकृत करें -

toolbox.register("evaluate", eval_func)

अब, क्रॉसओवर ऑपरेटर को पंजीकृत करें -

toolbox.register("mate", tools.cxTwoPoint)

एक म्यूटेशन ऑपरेटर पंजीकृत करें -

toolbox.register("mutate", tools.mutFlipBit, indpb = 0.05)

प्रजनन के लिए ऑपरेटर को परिभाषित करें -

toolbox.register("select", tools.selTournament, tournsize = 3)
return toolbox
if __name__ == "__main__":
   num_bits = 45
   toolbox = create_toolbox(num_bits)
   random.seed(7)
   population = toolbox.population(n = 500)
   probab_crossing, probab_mutating = 0.5, 0.2
   num_generations = 10
   print('\nEvolution process starts')

संपूर्ण जनसंख्या का मूल्यांकन करें -

fitnesses = list(map(toolbox.evaluate, population))
for ind, fit in zip(population, fitnesses):
   ind.fitness.values = fit
print('\nEvaluated', len(population), 'individuals')

पीढ़ियों के माध्यम से बनाएं और पुनरावृति करें -

for g in range(num_generations):
   print("\n- Generation", g)

अगली पीढ़ी के व्यक्तियों का चयन -

offspring = toolbox.select(population, len(population))

अब, चयनित व्यक्तियों को क्लोन करें -

offspring = list(map(toolbox.clone, offspring))

संतान पर क्रॉसओवर और म्यूटेशन लागू करें -

for child1, child2 in zip(offspring[::2], offspring[1::2]):
   if random.random() < probab_crossing:
   toolbox.mate(child1, child2)

बच्चे के फिटनेस मूल्य को हटा दें

del child1.fitness.values
del child2.fitness.values

अब, म्यूटेशन लागू करें -

for mutant in offspring:
   if random.random() < probab_mutating:
   toolbox.mutate(mutant)
   del mutant.fitness.values

अमान्य फिटनेस वाले व्यक्तियों का मूल्यांकन करें -

invalid_ind = [ind for ind in offspring if not ind.fitness.valid]
fitnesses = map(toolbox.evaluate, invalid_ind)
for ind, fit in zip(invalid_ind, fitnesses):
   ind.fitness.values = fit
print('Evaluated', len(invalid_ind), 'individuals')

अब, अगली पीढ़ी के व्यक्ति के साथ जनसंख्या बदलें -

population[:] = offspring

वर्तमान पीढ़ियों के लिए आंकड़े छापें -

fits = [ind.fitness.values[0] for ind in population]
length = len(population)
mean = sum(fits) / length
sum2 = sum(x*x for x in fits)
std = abs(sum2 / length - mean**2)**0.5
print('Min =', min(fits), ', Max =', max(fits))
print('Average =', round(mean, 2), ', Standard deviation =',
round(std, 2))
print("\n- Evolution ends")

अंतिम आउटपुट प्रिंट करें -

best_ind = tools.selBest(population, 1)[0]
   print('\nBest individual:\n', best_ind)
   print('\nNumber of ones:', sum(best_ind))
Following would be the output:
Evolution process starts
Evaluated 500 individuals
- Generation 0
Evaluated 295 individuals
Min = 32.0 , Max = 45.0
Average = 40.29 , Standard deviation = 2.61
- Generation 1
Evaluated 292 individuals
Min = 34.0 , Max = 45.0
Average = 42.35 , Standard deviation = 1.91
- Generation 2
Evaluated 277 individuals
Min = 37.0 , Max = 45.0
Average = 43.39 , Standard deviation = 1.46
… … … …
- Generation 9
Evaluated 299 individuals
Min = 40.0 , Max = 45.0
Average = 44.12 , Standard deviation = 1.11
- Evolution ends
Best individual:
[0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 
 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0,
 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1]
Number of ones: 15

प्रतीक प्रतिगमन समस्या

यह आनुवंशिक प्रोग्रामिंग में सबसे अच्छी ज्ञात समस्याओं में से एक है। सभी प्रतीकात्मक प्रतिगमन समस्याएं एक मनमाना डेटा वितरण का उपयोग करती हैं, और एक प्रतीकात्मक सूत्र के साथ सबसे सटीक डेटा को फिट करने का प्रयास करती हैं। आमतौर पर, किसी व्यक्ति की फिटनेस को मापने के लिए RMSE (रूट मीन स्क्वायर एरर) जैसे माप का उपयोग किया जाता है। यह एक क्लासिक regressor समस्या है और यहां हम समीकरण का उपयोग कर रहे हैं5x3-6x2+8x=1। हमें उपरोक्त उदाहरण में दिए गए सभी चरणों का पालन करने की आवश्यकता है, लेकिन मुख्य भाग आदिम सेट बनाना होगा क्योंकि वे व्यक्तियों के लिए बिल्डिंग ब्लॉक हैं ताकि मूल्यांकन शुरू हो सके। यहाँ हम आदिम के क्लासिक सेट का उपयोग करेंगे।

निम्नलिखित पायथन कोड इसे विस्तार से बताता है -

import operator
import math
import random
import numpy as np
from deap import algorithms, base, creator, tools, gp
def division_operator(numerator, denominator):
   if denominator == 0:
      return 1
   return numerator / denominator
def eval_func(individual, points):
   func = toolbox.compile(expr=individual)
   return math.fsum(mse) / len(points),
def create_toolbox():
   pset = gp.PrimitiveSet("MAIN", 1)
   pset.addPrimitive(operator.add, 2)
   pset.addPrimitive(operator.sub, 2)
   pset.addPrimitive(operator.mul, 2)
   pset.addPrimitive(division_operator, 2)
   pset.addPrimitive(operator.neg, 1)
   pset.addPrimitive(math.cos, 1)
   pset.addPrimitive(math.sin, 1)
   pset.addEphemeralConstant("rand101", lambda: random.randint(-1,1))
   pset.renameArguments(ARG0 = 'x')
   creator.create("FitnessMin", base.Fitness, weights = (-1.0,))
   creator.create("Individual",gp.PrimitiveTree,fitness=creator.FitnessMin)
   toolbox = base.Toolbox()
   toolbox.register("expr", gp.genHalfAndHalf, pset=pset, min_=1, max_=2)
   toolbox.expr)
   toolbox.register("population",tools.initRepeat,list, toolbox.individual)
   toolbox.register("compile", gp.compile, pset = pset)
   toolbox.register("evaluate", eval_func, points = [x/10. for x in range(-10,10)])
   toolbox.register("select", tools.selTournament, tournsize = 3)
   toolbox.register("mate", gp.cxOnePoint)
   toolbox.register("expr_mut", gp.genFull, min_=0, max_=2)
   toolbox.register("mutate", gp.mutUniform, expr = toolbox.expr_mut, pset = pset)
   toolbox.decorate("mate", gp.staticLimit(key = operator.attrgetter("height"), max_value = 17))
   toolbox.decorate("mutate", gp.staticLimit(key = operator.attrgetter("height"), max_value = 17))
   return toolbox
if __name__ == "__main__":
   random.seed(7)
   toolbox = create_toolbox()
   population = toolbox.population(n = 450)
   hall_of_fame = tools.HallOfFame(1)
   stats_fit = tools.Statistics(lambda x: x.fitness.values)
   stats_size = tools.Statistics(len)
   mstats = tools.MultiStatistics(fitness=stats_fit, size = stats_size)
   mstats.register("avg", np.mean)
   mstats.register("std", np.std)
   mstats.register("min", np.min)
   mstats.register("max", np.max)
   probab_crossover = 0.4
   probab_mutate = 0.2
   number_gen = 10
   population, log = algorithms.eaSimple(population, toolbox,
      probab_crossover, probab_mutate, number_gen,
      stats = mstats, halloffame = hall_of_fame, verbose = True)

ध्यान दें कि सभी मूल चरण बिट पैटर्न उत्पन्न करते समय उपयोग किए जाते हैं। यह कार्यक्रम हमें 10 पीढ़ियों के बाद न्यूनतम, अधिकतम, एसटीडी (मानक विचलन) के रूप में आउटपुट देगा।

कंप्यूटर दृष्टि का संबंध कंप्यूटर सॉफ्टवेयर और हार्डवेयर का उपयोग करते हुए मानव दृष्टि की मॉडलिंग और नकल से है। इस अध्याय में, आप इसके बारे में विस्तार से जानेंगे।

कंप्यूटर दृष्टी

कंप्यूटर दृष्टि एक अनुशासन है जो दृश्य में मौजूद संरचना के गुणों के संदर्भ में, इसकी 2d छवियों से 3 डी दृश्य को फिर से संगठित, पुनर्निर्माण और समझने के तरीके का अध्ययन करता है।

कंप्यूटर विजन पदानुक्रम

कंप्यूटर दृष्टि को निम्नलिखित के रूप में तीन मूल श्रेणियों में विभाजित किया गया है -

  • Low-level vision - इसमें फीचर एक्सट्रैक्शन के लिए प्रोसेस इमेज शामिल है।

  • Intermediate-level vision - इसमें ऑब्जेक्ट मान्यता और 3 डी दृश्य व्याख्या शामिल है

  • High-level vision - इसमें गतिविधि, इरादा और व्यवहार जैसे दृश्य का वैचारिक विवरण शामिल है।

कंप्यूटर विजन बनाम इमेज प्रोसेसिंग

छवि प्रसंस्करण छवि परिवर्तन के लिए छवि का अध्ययन करता है। इमेज प्रोसेसिंग का इनपुट और आउटपुट दोनों ही इमेज हैं।

कंप्यूटर दृष्टि उनकी छवि से भौतिक वस्तुओं के स्पष्ट, सार्थक विवरण का निर्माण है। कंप्यूटर दृष्टि का आउटपुट 3 डी दृश्य में संरचनाओं का वर्णन या व्याख्या है।

अनुप्रयोग

कंप्यूटर दृष्टि निम्नलिखित क्षेत्रों में आवेदन पाती है -

Robotics

  • स्थानीयकरण-निर्धारित रोबोट स्थान स्वचालित रूप से

  • Navigation

  • बाधा से बचाव

  • असेम्बली (पेग-इन-होल, वेल्डिंग, पेंटिंग)

  • हेरफेर (जैसे PUMA रोबोट मैनिप्युलेटर)

  • ह्यूमन रोबोट इंटरेक्शन (HRI): लोगों के साथ बातचीत करने और उनकी सेवा करने के लिए बुद्धिमान रोबोटिक्स

Medicine

  • वर्गीकरण और पहचान (जैसे घाव या कोशिकाओं का वर्गीकरण और ट्यूमर का पता लगाना)

  • 2 डी / 3 डी विभाजन

  • 3 डी मानव अंग पुनर्निर्माण (एमआरआई या अल्ट्रासाउंड)

  • दृष्टि निर्देशित रोबोटिक्स सर्जरी

Security

  • बॉयोमीट्रिक्स (आईरिस, फिंगर प्रिंट, चेहरे की पहचान)
  • निगरानी-कुछ संदिग्ध गतिविधियों या व्यवहारों का पता लगाना

Transportation

  • स्वायत्त वाहन
  • सुरक्षा, जैसे, चालक सतर्कता निगरानी

Industrial Automation Application

  • औद्योगिक निरीक्षण (दोष का पता लगाना)
  • Assembly
  • बारकोड और पैकेज लेबल पढ़ना
  • वस्तु छांटना
  • दस्तावेज़ की समझ (जैसे OCR)

उपयोगी पैकेज स्थापित करना

पायथन के साथ कंप्यूटर की दृष्टि के लिए, आप एक लोकप्रिय पुस्तकालय का उपयोग कर सकते हैं जिसे कहा जाता है OpenCV(ओपन सोर्स कंप्यूटर विजन)। यह मुख्य रूप से वास्तविक समय की कंप्यूटर दृष्टि के उद्देश्य से प्रोग्रामिंग कार्यों की एक लाइब्रेरी है। यह C ++ में लिखा गया है और इसका प्राथमिक इंटरफ़ेस C ++ में है। आप निम्न कमांड की सहायता से इस पैकेज को स्थापित कर सकते हैं -

pip install opencv_python-X.X-cp36-cp36m-winX.whl

यहां X आपकी मशीन पर स्थापित पायथन के संस्करण के साथ-साथ आपके पास होने वाले win32 या 64 बिट का प्रतिनिधित्व करता है।

यदि आप उपयोग कर रहे हैं anaconda पर्यावरण, तो OpenCV को स्थापित करने के लिए निम्नलिखित कमांड का उपयोग करें -

conda install -c conda-forge opencv

एक छवि पढ़ना, लिखना और प्रदर्शित करना

अधिकांश सीवी अनुप्रयोगों को छवियों को इनपुट के रूप में प्राप्त करने और आउटपुट के रूप में छवियों का उत्पादन करने की आवश्यकता होती है। इस अनुभाग में, आप सीखेंगे कि ओपनसीवी द्वारा प्रदान किए गए कार्यों की सहायता से छवि फ़ाइल कैसे पढ़ें और लिखें।

OpenCV एक छवि फ़ाइल को पढ़ने, दिखाने, लिखने के लिए कार्य करता है

OpenCV इस उद्देश्य के लिए निम्नलिखित कार्य प्रदान करता है -

  • imread() function- यह एक छवि को पढ़ने के लिए कार्य है। OpenCV इम्रेड () PNG, JPEG, JPG, TIFF, आदि जैसे विभिन्न छवि प्रारूपों का समर्थन करता है।

  • imshow() function- यह एक विंडो में एक छवि दिखाने के लिए कार्य है। विंडो स्वचालित रूप से छवि आकार में फिट हो जाती है। OpenCV imshow () PNG, JPEG, JPG, TIFF, आदि जैसे विभिन्न छवि प्रारूपों का समर्थन करता है।

  • imwrite() function- यह एक छवि लिखने के लिए कार्य है। OpenCV imwrite () PNG, JPEG, JPG, TIFF, आदि जैसे विभिन्न छवि प्रारूपों का समर्थन करता है।

Example

This example shows the Python code for reading an image in one format − showing it in a window and writing the same image in other format. Consider the steps shown below −

Import the OpenCV package as shown −

import cv2

Now, for reading a particular image, use the imread() function −

image = cv2.imread('image_flower.jpg')

For showing the image, use the imshow() function. The name of the window in which you can see the image would be image_flower.

cv2.imshow('image_flower',image)
cv2.destroyAllwindows()

Now, we can write the same image into the other format, say .png by using the imwrite() function −

cv2.imwrite('image_flower.png',image)

The output True means that the image has been successfully written as .png file also in the same folder.

True

Note − The function destroyallWindows() simply destroys all the windows we created.

Color Space Conversion

In OpenCV, the images are not stored by using the conventional RGB color, rather they are stored in the reverse order i.e. in the BGR order. Hence the default color code while reading an image is BGR. The cvtColor() color conversion function in for converting the image from one color code to other.

Example

Consider this example to convert image from BGR to grayscale.

Import the OpenCV package as shown −

import cv2

Now, for reading a particular image, use the imread() function −

image = cv2.imread('image_flower.jpg')

Now, if we see this image using imshow() function, then we can see that this image is in BGR.

cv2.imshow('BGR_Penguins',image)

Now, use cvtColor() function to convert this image to grayscale.

image = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
cv2.imshow('gray_penguins',image)

Edge Detection

Humans, after seeing a rough sketch, can easily recognize many object types and their poses. That is why edges play an important role in the life of humans as well as in the applications of computer vision. OpenCV provides very simple and useful function called Canny()for detecting the edges.

Example

The following example shows clear identification of the edges.

Import OpenCV package as shown −

import cv2
import numpy as np

Now, for reading a particular image, use the imread() function.

image = cv2.imread('Penguins.jpg')

Now, use the Canny () function for detecting the edges of the already read image.

cv2.imwrite(‘edges_Penguins.jpg’,cv2.Canny(image,200,300))

Now, for showing the image with edges, use the imshow() function.

cv2.imshow(‘edges’, cv2.imread(‘‘edges_Penguins.jpg’))

This Python program will create an image named edges_penguins.jpg with edge detection.

Face Detection

Face detection is one of the fascinating applications of computer vision which makes it more realistic as well as futuristic. OpenCV has a built-in facility to perform face detection. We are going to use the Haar cascade classifier for face detection.

Haar Cascade Data

We need data to use the Haar cascade classifier. You can find this data in our OpenCV package. After installing OpenCv, you can see the folder name haarcascades. There would be .xml files for different application. Now, copy all of them for different use and paste then in a new folder under the current project.

Example

The following is the Python code using Haar Cascade to detect the face of Amitabh Bachan shown in the following image −

Import the OpenCV package as shown −

import cv2
import numpy as np

Now, use the HaarCascadeClassifier for detecting face −

face_detection=
cv2.CascadeClassifier('D:/ProgramData/cascadeclassifier/
haarcascade_frontalface_default.xml')

Now, for reading a particular image, use the imread() function −

img = cv2.imread('AB.jpg')

Now, convert it into grayscale because it would accept gray images −

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

Now, using face_detection.detectMultiScale, perform actual face detection

faces = face_detection.detectMultiScale(gray, 1.3, 5)

Now, draw a rectangle around the whole face −

for (x,y,w,h) in faces:
   img = cv2.rectangle(img,(x,y),(x+w, y+h),(255,0,0),3)
cv2.imwrite('Face_AB.jpg',img)

This Python program will create an image named Face_AB.jpg with face detection as shown

Eye Detection

Eye detection is another fascinating application of computer vision which makes it more realistic as well as futuristic. OpenCV has a built-in facility to perform eye detection. We are going to use the Haar cascade classifier for eye detection.

Example

The following example gives the Python code using Haar Cascade to detect the face of Amitabh Bachan given in the following image −

Import OpenCV package as shown −

import cv2
import numpy as np

Now, use the HaarCascadeClassifier for detecting face −

eye_cascade = cv2.CascadeClassifier('D:/ProgramData/cascadeclassifier/haarcascade_eye.xml')

Now, for reading a particular image, use the imread() function

img = cv2.imread('AB_Eye.jpg')

Now, convert it into grayscale because it would accept grey images −

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

Now with the help of eye_cascade.detectMultiScale, perform actual face detection

eyes = eye_cascade.detectMultiScale(gray, 1.03, 5)

Now, draw a rectangle around the whole face −

for (ex,ey,ew,eh) in eyes:
   img = cv2.rectangle(img,(ex,ey),(ex+ew, ey+eh),(0,255,0),2)
cv2.imwrite('Eye_AB.jpg',img)

This Python program will create an image named Eye_AB.jpg with eye detection as shown −

Artificial Neural Network (ANN) it is an efficient computing system, whose central theme is borrowed from the analogy of biological neural networks. Neural networks are one type of model for machine learning. In the mid-1980s and early 1990s, much important architectural advancements were made in neural networks. In this chapter, you will learn more about Deep Learning, an approach of AI.

Deep learning emerged from a decade’s explosive computational growth as a serious contender in the field. Thus, deep learning is a particular kind of machine learning whose algorithms are inspired by the structure and function of human brain.

Machine Learning v/s Deep Learning

Deep learning is the most powerful machine learning technique these days. It is so powerful because they learn the best way to represent the problem while learning how to solve the problem. A comparison of Deep learning and Machine learning is given below −

Data Dependency

The first point of difference is based upon the performance of DL and ML when the scale of data increases. When the data is large, deep learning algorithms perform very well.

Machine Dependency

Deep learning algorithms need high-end machines to work perfectly. On the other hand, machine learning algorithms can work on low-end machines too.

Feature Extraction

Deep learning algorithms can extract high level features and try to learn from the same too. On the other hand, an expert is required to identify most of the features extracted by machine learning.

Time of Execution

Execution time depends upon the numerous parameters used in an algorithm. Deep learning has more parameters than machine learning algorithms. Hence, the execution time of DL algorithms, specially the training time, is much more than ML algorithms. But the testing time of DL algorithms is less than ML algorithms.

Approach to Problem Solving

Deep learning solves the problem end-to-end while machine learning uses the traditional way of solving the problem i.e. by breaking down it into parts.

Convolutional Neural Network (CNN)

Convolutional neural networks are the same as ordinary neural networks because they are also made up of neurons that have learnable weights and biases. Ordinary neural networks ignore the structure of input data and all the data is converted into 1-D array before feeding it into the network. This process suits the regular data, however if the data contains images, the process may be cumbersome.

सीएनएन इस समस्या को आसानी से हल करता है। यह छवियों की 2 डी संरचना को ध्यान में रखता है जब वे उन्हें संसाधित करते हैं, जो उन्हें छवियों के लिए विशिष्ट गुणों को निकालने की अनुमति देता है। इस तरह, CNNs का मुख्य लक्ष्य इनपुट लेयर में कच्ची छवि डेटा से आउटपुट लेयर में सही क्लास तक जाना है। एक साधारण एनएन और सीएनएन के बीच एकमात्र अंतर इनपुट डेटा के उपचार और परतों के प्रकार में है।

CNNs का आर्किटेक्चर अवलोकन

वास्तुकला में, सामान्य तंत्रिका नेटवर्क एक इनपुट प्राप्त करते हैं और इसे छिपी हुई परत की एक श्रृंखला के माध्यम से बदलते हैं। हर परत न्यूरॉन्स की मदद से दूसरी परत से जुड़ी होती है। साधारण तंत्रिका नेटवर्क का मुख्य नुकसान यह है कि वे पूर्ण छवियों के लिए अच्छी तरह से स्केल नहीं करते हैं।

CNNs की वास्तुकला में 3 आयामों में व्यवस्थित न्यूरॉन्स हैं, जिन्हें चौड़ाई, ऊंचाई और गहराई कहा जाता है। वर्तमान परत में प्रत्येक न्यूरॉन पिछली परत से आउटपुट के एक छोटे पैच से जुड़ा हुआ है। यह ओवरलेइंग के समान है×इनपुट छवि पर फ़िल्टर करें। यह उपयोगकर्ता हैMसभी विवरण प्राप्त करने के बारे में सुनिश्चित करने के लिए फ़िल्टर। इनM फिल्टर फ़ीचर एक्सट्रैक्टर्स होते हैं जो किनारों, कोनों आदि जैसी सुविधाओं को निकालते हैं।

परतों में सीएनएन का निर्माण होता था

सीएनएन के निर्माण के लिए निम्नलिखित परतों का उपयोग किया जाता है -

  • Input Layer - यह कच्ची छवि डेटा लेता है जैसा कि यह है।

  • Convolutional Layer- यह परत CNNs का मुख्य निर्माण खंड है जो अधिकांश संगणना करता है। यह परत इनपुट में न्यूरॉन्स और विभिन्न पैच के बीच संकल्‍पों की गणना करती है।

  • Rectified Linear Unit Layer- यह पिछली परत के आउटपुट में एक सक्रियण फ़ंक्शन लागू करता है। यह नेटवर्क में गैर-रैखिकता जोड़ता है ताकि यह किसी भी प्रकार के फ़ंक्शन को अच्छी तरह से सामान्य कर सके।

  • Pooling Layer- पूलिंग हमें केवल महत्वपूर्ण हिस्सों को रखने में मदद करता है क्योंकि हम नेटवर्क में प्रगति करते हैं। पूलिंग परत इनपुट के प्रत्येक गहराई टुकड़ा पर स्वतंत्र रूप से काम करती है और इसे स्थानिक रूप से आकार देती है। यह MAX फ़ंक्शन का उपयोग करता है।

  • Fully Connected layer/Output layer - यह परत अंतिम परत में आउटपुट स्कोर की गणना करती है। परिणामी आउटपुट आकार का है×× , जहां एल संख्या प्रशिक्षण डाटासेट कक्षाएं है।

उपयोगी पायथन पैकेज स्थापित करना

आप उपयोग कर सकते हैं Keras, जो एक उच्च स्तरीय तंत्रिका नेटवर्क API है, जिसे पायथन में लिखा गया है और TensorFlow, CNTK या थेओ के शीर्ष पर चलने में सक्षम है। यह पायथन 2.7-3.6 के साथ संगत है। आप इसके बारे में और जान सकते हैंhttps://keras.io/।

करैस को स्थापित करने के लिए निम्नलिखित कमांड्स का उपयोग करें -

pip install keras

पर conda पर्यावरण, आप निम्न आदेश का उपयोग कर सकते हैं -

conda install –c conda-forge keras

एएनएन का उपयोग करके रैखिक रजिस्ट्रार का निर्माण

इस खंड में, आप सीखेंगे कि कृत्रिम तंत्रिका नेटवर्क का उपयोग करके रैखिक रेजिस्टर कैसे बनाया जाए। आप उपयोग कर सकते हैंKerasRegressorइसे पाने के लिये। इस उदाहरण में, हम बोस्टन में गुणों के लिए 13 संख्यात्मक के साथ बोस्टन हाउस प्राइस डेटासेट का उपयोग कर रहे हैं। उसी के लिए पायथन कोड यहाँ दिखाया गया है -

दिखाए गए अनुसार सभी आवश्यक पैकेज आयात करें -

import numpy
import pandas
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

अब, हमारे डेटासेट को लोड करें जो स्थानीय निर्देशिका में सहेजा गया है।

dataframe = pandas.read_csv("/Usrrs/admin/data.csv", delim_whitespace = True, header = None)
dataset = dataframe.values

अब, डेटा को इनपुट और आउटपुट वेरिएबल्स में विभाजित करें अर्थात X और Y -

X = dataset[:,0:13]
Y = dataset[:,13]

चूंकि हम आधारभूत तंत्रिका नेटवर्क का उपयोग करते हैं, इसलिए मॉडल को परिभाषित करें -

def baseline_model():

अब, इस प्रकार मॉडल बनाएं -

model_regressor = Sequential()
model_regressor.add(Dense(13, input_dim = 13, kernel_initializer = 'normal', 
   activation = 'relu'))
model_regressor.add(Dense(1, kernel_initializer = 'normal'))

अगला, मॉडल संकलित करें -

model_regressor.compile(loss='mean_squared_error', optimizer='adam')
return model_regressor

अब, निम्नानुसार प्रजनन योग्य प्रजनन के लिए यादृच्छिक बीज को ठीक करें -

seed = 7
numpy.random.seed(seed)

में उपयोग के लिए केरस रैपर ऑब्जेक्ट scikit-learn प्रतिगमन अनुमानक के रूप में कहा जाता है KerasRegressor। इस खंड में, हम इस मॉडल का मूल्यांकन मानकीकृत डेटा सेट के साथ करेंगे।

estimator = KerasRegressor(build_fn = baseline_model, nb_epoch = 100, batch_size = 5, verbose = 0)
kfold = KFold(n_splits = 10, random_state = seed)
baseline_result = cross_val_score(estimator, X, Y, cv = kfold)
print("Baseline: %.2f (%.2f) MSE" % (Baseline_result.mean(),Baseline_result.std()))

ऊपर दिखाए गए कोड का आउटपुट अनदेखी डेटा के लिए समस्या पर मॉडल के प्रदर्शन का अनुमान होगा। यह क्रॉस स्क्वेरेशन मूल्यांकन की सभी 10 परतों में औसत और मानक विचलन सहित औसत चुकता त्रुटि होगी।

छवि क्लासिफायरियर: डीप लर्निंग का एक अनुप्रयोग

संवादात्मक तंत्रिका नेटवर्क (CNNs) एक छवि वर्गीकरण समस्या को हल करता है, वह यह है कि इनपुट छवि किस वर्ग की है। आप केरस डीप लर्निंग लाइब्रेरी का उपयोग कर सकते हैं। ध्यान दें कि हम निम्नलिखित लिंक से बिल्लियों और कुत्तों की छवियों के प्रशिक्षण और परीक्षण डेटा सेट का उपयोग कर रहे हैंhttps://www.kaggle.com/c/dogs-vs-cats/data।

दिखाए गए अनुसार महत्वपूर्ण करेर्स लाइब्रेरी और पैकेज आयात करें -

अनुक्रमिक नामक निम्नलिखित पैकेज तंत्रिका नेटवर्क को अनुक्रमिक नेटवर्क के रूप में आरंभ करेगा।

from keras.models import Sequential

निम्नलिखित पैकेज कहा जाता है Conv2D सीएनएन के पहले चरण के कनवल्शन ऑपरेशन को करने के लिए उपयोग किया जाता है।

from keras.layers import Conv2D

निम्नलिखित पैकेज कहा जाता है MaxPoling2D पूलिंग ऑपरेशन करने के लिए प्रयोग किया जाता है, सीएनएन का दूसरा चरण।

from keras.layers import MaxPooling2D

निम्नलिखित पैकेज कहा जाता है Flatten सभी परिणामी 2D सरणियों को एक एकल लंबे निरंतर रैखिक वेक्टर में परिवर्तित करने की प्रक्रिया है।

from keras.layers import Flatten

निम्नलिखित पैकेज कहा जाता है Dense CNN के चौथे चरण, तंत्रिका नेटवर्क के पूर्ण कनेक्शन को करने के लिए उपयोग किया जाता है।

from keras.layers import Dense

अब, अनुक्रमिक वर्ग की एक वस्तु बनाएं।

S_classifier = Sequential()

अब, अगला चरण कन्वेक्शन पार्ट को कोड कर रहा है।

S_classifier.add(Conv2D(32, (3, 3), input_shape = (64, 64, 3), activation = 'relu'))

यहाँ relu रेक्टिफायर फंक्शन है।

अब, सीएनएन का अगला चरण परिणय भाग के बाद परिणामी फीचर मानचित्रों पर पूलिंग ऑपरेशन है।

S-classifier.add(MaxPooling2D(pool_size = (2, 2)))

अब, सभी पूल की गई छवियों को चापलूसी के द्वारा निरंतर वेक्टर में परिवर्तित करें -

S_classifier.add(Flatten())

इसके बाद, पूरी तरह से कनेक्टेड लेयर बनाएं।

S_classifier.add(Dense(units = 128, activation = 'relu'))

यहां 128 छिपी हुई इकाइयों की संख्या है। 2 की शक्ति के रूप में छिपी हुई इकाइयों की संख्या को परिभाषित करना एक आम बात है।

अब, आउटपुट लेयर को इनिशियलाइज़ करें इस प्रकार है -

S_classifier.add(Dense(units = 1, activation = 'sigmoid'))

अब, सीएनएन संकलित करें, हमने बनाया है -

S_classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

यहां ऑप्टिमाइज़र पैरामीटर स्टोचस्टिक ग्रेडिएंट डीसेंट अल्गोरिथम को चुनना है, लॉस पैरामीटर को फंक्शन फंक्शन चुनना है और मेट्रिक्स पैरामीटर को परफॉर्मेंस मेट्रिक चुनना है।

अब, छवि संवर्द्धन प्रदर्शन और फिर तंत्रिका नेटवर्क के लिए छवियों को फिट -

train_datagen = ImageDataGenerator(rescale = 1./255,shear_range = 0.2,
zoom_range = 0.2,
horizontal_flip = True)
test_datagen = ImageDataGenerator(rescale = 1./255)

training_set = 
   train_datagen.flow_from_directory(”/Users/admin/training_set”,target_size = 
      (64, 64),batch_size = 32,class_mode = 'binary')

test_set = 
   test_datagen.flow_from_directory('test_set',target_size = 
      (64, 64),batch_size = 32,class_mode = 'binary')

अब, हमारे द्वारा बनाए गए मॉडल के डेटा को फिट करें -

classifier.fit_generator(training_set,steps_per_epoch = 8000,epochs = 
25,validation_data = test_set,validation_steps = 2000)

यहाँ steps_per_epoch में प्रशिक्षण छवियों की संख्या है।

अब जैसे कि मॉडल को प्रशिक्षित किया गया है, हम इसे निम्नानुसार भविष्यवाणी के लिए उपयोग कर सकते हैं -

from keras.preprocessing import image

test_image = image.load_img('dataset/single_prediction/cat_or_dog_1.jpg', 
target_size = (64, 64))

test_image = image.img_to_array(test_image)

test_image = np.expand_dims(test_image, axis = 0)

result = classifier.predict(test_image)

training_set.class_indices

if result[0][0] == 1:
prediction = 'dog'

else:
   prediction = 'cat'