पायथन के साथ मशीन सीखना - पारिस्थितिकी तंत्र

पायथन का एक परिचय

पायथन उच्च स्तरीय प्रोग्रामिंग भाषा की क्षमताओं वाले एक लोकप्रिय वस्तु-उन्मुख प्रोग्रामिंग भाषा है। इसका सिंटैक्स और पोर्टेबिलिटी क्षमता सीखना आसान है जो इन दिनों इसे लोकप्रिय बनाता है। अनुवर्ती तथ्य हमें पायथन से परिचय कराते हैं -

  • पायथन को नीदरलैंड के स्टिचिंग मैथेमेटिक सेंट्रम में गुइडो वैन रोसुम द्वारा विकसित किया गया था।

  • यह प्रोग्रामिंग भाषा के उत्तराधिकारी के रूप में लिखा गया था जिसका नाम 'एबीसी' था।

  • यह पहला संस्करण 1991 में जारी किया गया था।

  • मॉन्टी पायथन के फ्लाइंग सर्कस नाम के एक टीवी शो से गुइडो वैन रोसुम द्वारा पायथन नाम उठाया गया था।

  • यह एक ओपन सोर्स प्रोग्रामिंग लैंग्वेज है, जिसका अर्थ है कि हम इसे स्वतंत्र रूप से डाउनलोड कर सकते हैं और इसे प्रोग्राम विकसित करने के लिए उपयोग कर सकते हैं। इसे www.python.org से डाउनलोड किया जा सकता है ।

  • पायथन प्रोग्रामिंग भाषा में जावा और सी दोनों की विशेषताएं हैं। इसमें सुरुचिपूर्ण 'सी' कोड है और दूसरी ओर, ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग के लिए जावा जैसी कक्षाएं और ऑब्जेक्ट हैं।

  • यह एक व्याख्या की गई भाषा है, जिसका अर्थ है कि पायथन प्रोग्राम का स्रोत कोड पहले बाईटेकोड में बदल जाएगा और फिर पायथन वर्चुअल मशीन द्वारा निष्पादित किया जाएगा।

पाइथन की ताकत और कमजोरियाँ

हर प्रोग्रामिंग लैंग्वेज में कुछ ताकत के साथ-साथ कमजोरियां भी होती हैं, इसलिए पायथन भी ऐसा करता है।

ताकत

अध्ययनों और सर्वेक्षणों के अनुसार, पायथन पांचवीं सबसे महत्वपूर्ण भाषा है और साथ ही मशीन सीखने और डेटा विज्ञान के लिए सबसे लोकप्रिय भाषा भी है। इसकी वजह यह है कि पायथन के पास निम्नलिखित ताकतें हैं -

Easy to learn and understand- पायथन का सिंटैक्स सरल है; इसलिए यह अपेक्षाकृत आसान है, यहां तक ​​कि शुरुआती लोगों के लिए भी, भाषा सीखना और समझना।

Multi-purpose language - पायथन एक बहुउद्देश्यीय प्रोग्रामिंग भाषा है क्योंकि यह संरचित प्रोग्रामिंग, ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग और साथ ही कार्यात्मक प्रोग्रामिंग का समर्थन करता है।

Huge number of modules- प्रोग्रामिंग के हर पहलू को कवर करने के लिए पायथन में बड़ी संख्या में मॉड्यूल हैं। ये मॉड्यूल उपयोग के लिए आसानी से उपलब्ध हैं इसलिए पायथन को एक एक्स्टेंसिबल भाषा बना दिया गया है।

Support of open source community- ओपन सोर्स प्रोग्रामिंग भाषा होने के नाते, पायथन एक बहुत बड़े डेवलपर समुदाय द्वारा समर्थित है। इसके कारण, कीट आसानी से पायथन समुदाय द्वारा तय किए जाते हैं। यह विशेषता पायथन को बहुत मजबूत और अनुकूल बनाती है।

Scalability - पायथन एक स्केलेबल प्रोग्रामिंग भाषा है क्योंकि यह शेल-स्क्रिप्ट की तुलना में बड़े कार्यक्रमों के समर्थन के लिए एक बेहतर संरचना प्रदान करता है।

दुर्बलता

हालांकि पायथन एक लोकप्रिय और शक्तिशाली प्रोग्रामिंग भाषा है, लेकिन इसकी धीमी निष्पादन गति की अपनी कमजोरी है।

संकलित भाषाओं की तुलना में पायथन की निष्पादन गति धीमी है क्योंकि पायथन एक व्याख्या की गई भाषा है। यह पायथन समुदाय के लिए सुधार का प्रमुख क्षेत्र हो सकता है।

पायथन की स्थापना

पायथन में काम करने के लिए, हमें पहले इसे स्थापित करना होगा। आप पायथन की स्थापना निम्न दो तरीकों से कर सकते हैं -

  • व्यक्तिगत रूप से पायथन स्थापित करना

  • प्री-पैकेज्ड पायथन वितरण का उपयोग करना - एनाकोंडा

आइए हम इन प्रत्येक पर विस्तार से चर्चा करें।

व्यक्तिगत रूप से पायथन की स्थापना

यदि आप अपने कंप्यूटर पर पायथन स्थापित करना चाहते हैं, तो फिर आपको अपने प्लेटफ़ॉर्म के लिए केवल बाइनरी कोड को डाउनलोड करना होगा। अजगर वितरण विंडोज, लिनक्स और मैक प्लेटफार्मों के लिए उपलब्ध है।

उपर्युक्त प्लेटफार्मों पर पायथन को स्थापित करने का एक त्वरित अवलोकन निम्नलिखित है -

On Unix and Linux platform

निम्नलिखित चरणों की मदद से, हम यूनिक्स और लिनक्स प्लेटफॉर्म पर पायथन को स्थापित कर सकते हैं -

  • सबसे पहले, www.python.org/downloads/ पर जाएं ।

  • इसके बाद, यूनिक्स / लिनक्स के लिए उपलब्ध ज़िप्ड सोर्स कोड डाउनलोड करने के लिए लिंक पर क्लिक करें।

  • अब, फ़ाइलें डाउनलोड और निकालें।

  • यदि हम कुछ विकल्पों को अनुकूलित करना चाहते हैं तो अगला, हम मॉड्यूल / सेटअप फ़ाइल को संपादित कर सकते हैं।

    • इसके बाद, कमांड लिखें run ./configure script

    • make

    • स्थापित करें

On Windows platform

निम्नलिखित चरणों की मदद से, हम विंडोज प्लेटफॉर्म पर पायथन को स्थापित कर सकते हैं -

  • सबसे पहले, www.python.org/downloads/ पर जाएं ।

  • अगला, विंडोज इंस्टॉलर के लिए लिंक पर क्लिक करें अजगर- XYZ.msi फ़ाइल। यहां XYZ वह संस्करण है जिसे हम इंस्टॉल करना चाहते हैं।

  • अब, हमें डाउनलोड की गई फ़ाइल को चलाना होगा। यह हमें पायथन स्थापित विज़ार्ड में ले जाएगा, जिसका उपयोग करना आसान है। अब, डिफ़ॉल्ट सेटिंग्स को स्वीकार करें और इंस्टॉल समाप्त होने तक प्रतीक्षा करें।

On Macintosh platform

मैक ओएस एक्स के लिए, होमब्रेव, पैकेज इंस्टॉलर का उपयोग करने के लिए एक महान और आसान पायथन को स्थापित करने की सिफारिश की जाती है। 3. यदि आपके पास होमब्रे नहीं है, तो आप इसे निम्नलिखित कमांड की मदद से स्थापित कर सकते हैं -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

इसे नीचे दिए गए कमांड से अपडेट किया जा सकता है -

$ brew update

अब, Python3 को आपके सिस्टम पर संस्थापित करने के लिए, हमें निम्नलिखित कमांड चलाने की आवश्यकता है -

$ brew install python3

प्री-पैकेज्ड पायथन वितरण का उपयोग करना: एनाकोंडा

एनाकोंडा पाइथन का एक पैकेज्ड संकलन है जिसमें डेटा साइंस में सभी पुस्तकालयों का व्यापक रूप से उपयोग किया जाता है। हम एनाकोंडा का उपयोग करके पायथन पर्यावरण को स्थापित करने के लिए निम्नलिखित चरणों का पालन कर सकते हैं -

  • Step 1- सबसे पहले, हमें एनाकोंडा वितरण से आवश्यक स्थापना पैकेज डाउनलोड करना होगा। उसी के लिए लिंक www.anaconda.com/distribution/ है । आप अपनी आवश्यकता के अनुसार विंडोज, मैक और लिनक्स ओएस से चुन सकते हैं।

  • Step 2- इसके बाद, उस पायथन संस्करण का चयन करें जिसे आप अपनी मशीन पर इंस्टॉल करना चाहते हैं। नवीनतम पायथन संस्करण 3.7 है। वहां आपको 64-बिट और 32-बिट ग्राफिकल इंस्टॉलर दोनों के विकल्प मिलेंगे।

  • Step 3- ओएस और पायथन संस्करण का चयन करने के बाद, यह आपके कंप्यूटर पर एनाकोंडा इंस्टॉलर डाउनलोड करेगा। अब, फ़ाइल पर डबल क्लिक करें और इंस्टॉलर एनाकोंडा पैकेज स्थापित करेगा।

  • Step 4 - यह जाँचने के लिए कि यह स्थापित है या नहीं, कमांड प्रॉम्प्ट खोलें और निम्नानुसार पायथन टाइप करें -

आप इसे www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp पर विस्तृत वीडियो व्याख्यान में भी देख सकते हैं ।

डेटा साइंस के लिए पायथन क्यों?

पायथन पाँचवीं सबसे महत्वपूर्ण भाषा है और साथ ही मशीन सीखने और डेटा विज्ञान के लिए सबसे लोकप्रिय भाषा भी है। पायथन की विशेषताएं निम्नलिखित हैं जो इसे डेटा विज्ञान के लिए भाषा का पसंदीदा विकल्प बनाती है -

पैकेज का व्यापक सेट

अजगर के पास पैकेजों का एक व्यापक और शक्तिशाली सेट है जो विभिन्न डोमेन में उपयोग करने के लिए तैयार हैं। इसमें भी जैसे पैकेज हैंnumpy, scipy, pandas, scikit-learn आदि जो मशीन सीखने और डेटा विज्ञान के लिए आवश्यक हैं।

आसान प्रोटोटाइप

पायथन की एक अन्य महत्वपूर्ण विशेषता जो इसे डेटा विज्ञान के लिए भाषा का विकल्प बनाती है, वह आसान और तेज़ प्रोटोटाइप है। यह सुविधा नए एल्गोरिदम को विकसित करने के लिए उपयोगी है।

सहयोग सुविधा

डेटा साइंस के क्षेत्र को मूल रूप से अच्छे सहयोग की आवश्यकता है और पायथन कई उपयोगी उपकरण प्रदान करता है जो इसे बेहद महत्वपूर्ण बनाते हैं।

कई डोमेन के लिए एक भाषा

एक विशिष्ट डेटा विज्ञान परियोजना में डेटा निष्कर्षण, डेटा हेरफेर, डेटा विश्लेषण, सुविधा निष्कर्षण, मॉडलिंग, मूल्यांकन, तैनाती और समाधान को अद्यतन करने जैसे विभिन्न डोमेन शामिल हैं। जैसा कि पायथन एक बहुउद्देश्यीय भाषा है, यह डेटा वैज्ञानिक को एक सामान्य मंच से इन सभी डोमेन को संबोधित करने की अनुमति देता है।

अजगर एमएल पारिस्थितिकी तंत्र के घटक

इस खंड में, हम कुछ मुख्य डेटा विज्ञान पुस्तकालयों पर चर्चा करते हैं जो पायथन मशीन लर्निंग इकोसिस्टम के घटकों का निर्माण करते हैं। ये उपयोगी घटक डेटा साइंस के लिए पायथन को एक महत्वपूर्ण भाषा बनाते हैं। हालांकि इस तरह के कई घटक हैं, आइए हम यहां अजगर पारिस्थितिकी तंत्र के कुछ महत्वपूर्ण घटकों के बारे में चर्चा करते हैं -

ज्यूपिटर नोटबुक

जुपिटर नोटबुक मूल रूप से पायथन आधारित डेटा साइंस अनुप्रयोगों को विकसित करने के लिए एक इंटरैक्टिव कम्प्यूटेशनल वातावरण प्रदान करता है। वे पूर्व में ipython नोटबुक्स के रूप में जाने जाते हैं। ज्यूपिटर नोटबुक्स की कुछ विशेषताएं निम्नलिखित हैं जो इसे पायथन एमएल पारिस्थितिकी तंत्र के सर्वोत्तम घटकों में से एक बनाती हैं -

  • जुपिटर नोटबुक एक चरण में चरणबद्ध तरीके से कोड, चित्र, पाठ, आउटपुट आदि जैसे सामान की व्यवस्था करके विश्लेषण प्रक्रिया को चरणबद्ध तरीके से समझा सकती है।

  • यह विश्लेषण प्रक्रिया को विकसित करते हुए विचार प्रक्रिया का दस्तावेजीकरण करने में एक डेटा वैज्ञानिक की मदद करता है।

  • एक नोटबुक के हिस्से के रूप में परिणाम पर भी कब्जा कर सकता है।

  • ज्यूपिटर नोटबुक की मदद से, हम अपने काम को एक सहकर्मी के साथ भी साझा कर सकते हैं।

स्थापना और निष्पादन

यदि आप एनाकोंडा वितरण का उपयोग कर रहे हैं, तो आपको जुपिटर नोटबुक को अलग से स्थापित करने की आवश्यकता नहीं है क्योंकि यह पहले से ही स्थापित है। आपको बस एनाकोंडा प्रॉम्प्ट पर जाने और निम्न कमांड टाइप करने की आवश्यकता है -

C:\>jupyter notebook

एंटर दबाने के बाद, यह आपके कंप्यूटर के लोकलहोस्ट: 8888 पर एक नोटबुक सर्वर शुरू करेगा। यह निम्नलिखित स्क्रीन शॉट में दिखाया गया है -

अब, न्यू टैब पर क्लिक करने के बाद, आपको विकल्पों की एक सूची मिलेगी। अजगर 3 का चयन करें और इसमें काम शुरू करने के लिए यह आपको नई नोटबुक में ले जाएगा। आपको निम्नलिखित स्क्रीनशॉट में इसकी एक झलक मिलेगी -

दूसरी ओर, यदि आप मानक पायथन वितरण का उपयोग कर रहे हैं तो लोकप्रिय अजगर पैकेज इंस्टॉलर, पाइप का उपयोग करके ज्यूपिटर नोटबुक स्थापित किया जा सकता है।

pip install jupyter

ज्यूपिटर नोटबुक में सेल के प्रकार

ज्यूपिटर नोटबुक में निम्नलिखित तीन प्रकार की कोशिकाएँ हैं -

Code cells- जैसा कि नाम से पता चलता है, हम इन सेल का उपयोग कोड लिखने के लिए कर सकते हैं। कोड / सामग्री लिखने के बाद, यह उसे उस कर्नेल पर भेज देगा जो नोटबुक के साथ जुड़ा हुआ है।

Markdown cells- हम इन कोशिकाओं का उपयोग गणना प्रक्रिया को सूचित करने के लिए कर सकते हैं। इनमें टेक्स्ट, इमेज, लेटेक्स समीकरण, HTML टैग आदि जैसे सामान हो सकते हैं।

Raw cells- उनमें लिखा गया पाठ वैसा ही प्रदर्शित होता है जैसा वह है। इन कोशिकाओं का उपयोग मूल रूप से उस पाठ को जोड़ने के लिए किया जाता है जिसे हम बृहस्पति नोटबुक के स्वचालित रूपांतरण तंत्र द्वारा परिवर्तित नहीं करना चाहते हैं।

Jupyter नोटबुक के अधिक विस्तृत अध्ययन के लिए, आप लिंक पर जा सकते हैं www.tutorialspoint.com/jupyter/index.htm ।

Numpy

यह एक और उपयोगी घटक है जो डेटा साइंस के लिए पसंदीदा भाषाओं में से एक पायथन बनाता है। यह मूल रूप से न्यूमेरिकल पायथन के लिए खड़ा है और इसमें बहुआयामी सरणी ऑब्जेक्ट शामिल हैं। NumPy का उपयोग करके, हम निम्नलिखित महत्वपूर्ण कार्य कर सकते हैं -

  • सरणियों पर गणितीय और तार्किक संचालन।

  • फूरियर परिवर्तन

  • रैखिक बीजगणित के साथ जुड़े संचालन।

हम NumPy को MatLab के प्रतिस्थापन के रूप में भी देख सकते हैं क्योंकि NumPy का उपयोग ज्यादातर Scipy (वैज्ञानिक पायथन) और Mat-plotlib (प्लॉटिंग लाइब्रेरी) के साथ किया जाता है।

Installation and Execution

यदि आप एनाकोंडा वितरण का उपयोग कर रहे हैं, तो अलग से NumPy स्थापित करने की कोई आवश्यकता नहीं है क्योंकि यह पहले से ही इसके साथ स्थापित है। आपको निम्नलिखित की मदद से पैकेज को अपनी पायथन लिपि में आयात करना होगा -

import numpy as np

दूसरी ओर, यदि आप मानक पायथन वितरण का उपयोग कर रहे हैं तो लोकप्रिय अजगर पैकेज इंस्टॉलर, पाइप का उपयोग करके NumPy स्थापित किया जा सकता है।

pip install NumPy

NumPy के अधिक विस्तृत अध्ययन के लिए, आप लिंक www.tutorialspoint.com/numpy/index.htm पर जा सकते हैं ।

पांडा

यह एक और उपयोगी पायथन लाइब्रेरी है जो पायथन को डेटा साइंस के लिए पसंदीदा भाषाओं में से एक बनाती है। पंडों का इस्तेमाल मूल रूप से डेटा हेरफेर, तकरार और विश्लेषण के लिए किया जाता है। यह 2008 में वेस मैककिनी द्वारा विकसित किया गया था। पंडों की मदद से, डाटा प्रोसेसिंग में हम निम्नलिखित पांच चरणों को पूरा कर सकते हैं -

  • Load
  • Prepare
  • Manipulate
  • Model
  • Analyze

पंडों में डेटा प्रतिनिधित्व

पंडों में डेटा का संपूर्ण प्रतिनिधित्व तीन डेटा संरचनाओं की मदद से किया जाता है -

Series- यह मूल रूप से एक अक्षीय लेबल के साथ एक आयामी आयाम है जिसका अर्थ है कि यह समरूप डेटा के साथ एक सरल सरणी की तरह है। उदाहरण के लिए, निम्नलिखित श्रृंखला पूर्णांक 1,5,10,15,24,25 का संग्रह है ...

1 5 10 15 24 25 28 36 40 89

Data frame- यह सबसे उपयोगी डेटा संरचना है और लगभग सभी प्रकार के डेटा प्रतिनिधित्व और पंडों में हेरफेर के लिए उपयोग किया जाता है। यह मूल रूप से एक द्वि-आयामी डेटा संरचना है जिसमें विषम डेटा हो सकता है। आम तौर पर, सारणीबद्ध डेटा को डेटा फ़्रेम का उपयोग करके दर्शाया जाता है। उदाहरण के लिए, निम्न तालिका में छात्रों के नाम और रोल नंबर, आयु और लिंग का डेटा दिखाया गया है -

नाम रोल नंबर उम्र लिंग
आरव 1 15 पुरुष
हर्षित 2 14 पुरुष
कनिका 3 16 महिला
मयंक 4 15 पुरुष

Panel- यह एक 3-आयामी डेटा संरचना है जिसमें विषम डेटा है। चित्रमय प्रतिनिधित्व में पैनल का प्रतिनिधित्व करना बहुत मुश्किल है, लेकिन इसे डेटाफ्रैम के कंटेनर के रूप में चित्रित किया जा सकता है।

निम्न तालिका हमें पंडों में प्रयुक्त उपर्युक्त डेटा संरचनाओं के बारे में आयाम और विवरण देती है -

डेटा संरचना आयाम विवरण
श्रृंखला 1-घ आकार अपरिवर्तनीय, 1-डी सजातीय डेटा
DataFrames 2-डी आकार म्यूटेबल, सारणीबद्ध रूप में विषम डेटा
पैनल 3-डी साइज-म्यूटेबल ऐरे, डेटाफ्रेम का कंटेनर।

हम इन डेटा संरचनाओं को समझ सकते हैं क्योंकि उच्च आयामी डेटा संरचना निम्न आयामी डेटा संरचना का कंटेनर है।

स्थापना और निष्पादन

यदि आप एनाकोंडा वितरण का उपयोग कर रहे हैं, तो पंडों को अलग से स्थापित करने की आवश्यकता नहीं है क्योंकि यह पहले से ही स्थापित है। आपको निम्नलिखित की मदद से पैकेज को अपनी पायथन लिपि में आयात करना होगा -

import pandas as pd

दूसरी ओर, यदि आप मानक पायथन वितरण का उपयोग कर रहे हैं तो पंडों को लोकप्रिय अजगर पैकेज इंस्टॉलर, पाइप का उपयोग करके स्थापित किया जा सकता है।

pip install Pandas

पंडों को स्थापित करने के बाद, आप इसे अपने पायथन स्क्रिप्ट में आयात कर सकते हैं जैसा कि ऊपर किया गया था।

उदाहरण

निम्नलिखित पंडों का उपयोग करके ndarray से एक श्रृंखला बनाने का एक उदाहरण है -

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

पंडों के अधिक विस्तृत अध्ययन के लिए आप लिंक www.tutorialspoint.com/python_pandas/index.htm पर जा सकते हैं ।

Scikit सीखने

पायथन में डेटा साइंस और मशीन लर्निंग के लिए एक और उपयोगी और सबसे महत्वपूर्ण पायथन लाइब्रेरी स्किकिट-लर्न है। स्किकिट-लर्न की कुछ विशेषताएं निम्नलिखित हैं जो इसे इतना उपयोगी बनाती हैं -

  • यह NumPy, SciPy और Matplotlib पर बनाया गया है।

  • यह एक खुला स्रोत है और इसका बीएसडी लाइसेंस के तहत पुन: उपयोग किया जा सकता है।

  • यह सभी के लिए सुलभ है और विभिन्न संदर्भों में इसका पुन: उपयोग किया जा सकता है।

  • एमएल के प्रमुख क्षेत्रों जैसे वर्गीकरण, क्लस्टरिंग, प्रतिगमन, आयामीता में कमी, मॉडल चयन आदि को कवर करने वाली मशीन लर्निंग एल्गोरिदम की विस्तृत श्रृंखला को इसकी मदद से लागू किया जा सकता है।

स्थापना और निष्पादन

यदि आप एनाकोंडा वितरण का उपयोग कर रहे हैं, तो अलग से Scikit-learn को स्थापित करने की आवश्यकता नहीं है क्योंकि यह पहले से ही इसके साथ स्थापित है। आपको बस अपने पायथन स्क्रिप्ट में पैकेज का उपयोग करने की आवश्यकता है। उदाहरण के लिए, स्क्रिप्ट की निम्नलिखित पंक्ति के साथ हम स्तन कैंसर के रोगियों के डेटासेट का आयात कर रहे हैंScikit-learn -

from sklearn.datasets import load_breast_cancer

दूसरी ओर, यदि आप मानक पायथन वितरण का उपयोग कर रहे हैं और NumPy और SciPy कर रहे हैं, तो Scikit-learn लोकप्रिय अजगर पैकेज इंस्टॉलर, पाइप का उपयोग करके स्थापित किया जा सकता है।

pip install -U scikit-learn

स्किकिट-सीख को स्थापित करने के बाद, आप इसे अपने पायथन स्क्रिप्ट में उपयोग कर सकते हैं जैसा आपने ऊपर किया है।