चंचल डेटा विज्ञान - त्वरित गाइड
फुर्तीली डेटा विज्ञान वेब अनुप्रयोग विकास के लिए चुस्त कार्यप्रणाली के साथ डेटा विज्ञान का उपयोग करने का एक दृष्टिकोण है। यह एक संगठन के लिए परिवर्तन को प्रभावित करने के लिए उपयुक्त डेटा विज्ञान प्रक्रिया के उत्पादन पर ध्यान केंद्रित करता है। डेटा विज्ञान में बिल्डिंग एप्लिकेशन शामिल हैं जो विश्लेषण, इंटरैक्टिव विज़ुअलाइज़ेशन और अब लागू मशीन लर्निंग के साथ अनुसंधान प्रक्रिया का वर्णन करते हैं।
चुस्त डेटा विज्ञान का प्रमुख लक्ष्य है -
एक सम्मोहक उत्पाद के लिए महत्वपूर्ण पथ की खोज और अनुसरण करने के लिए व्याख्यात्मक डेटा विश्लेषण का दस्तावेज़ और मार्गदर्शन करें।
चंचल डेटा विज्ञान सिद्धांतों के निम्नलिखित सेट के साथ आयोजित किया जाता है -
निरंतर Iteration
इस प्रक्रिया में सृजन तालिका, चार्ट, रिपोर्ट और भविष्यवाणियों के साथ निरंतर चलना शामिल है। बिल्डिंग प्रेडिक्टिव मॉडल को निष्कर्षण और अंतर्दृष्टि के उत्पादन के साथ फीचर इंजीनियरिंग के कई पुनरावृत्तियों की आवश्यकता होगी।
इंटरमीडिएट आउटपुट
यह उत्पन्न आउटपुट की ट्रैक सूची है। यह भी कहा जाता है कि असफल प्रयोगों का भी आउटपुट होता है। हर पुनरावृत्ति का ट्रैकिंग आउटपुट अगले पुनरावृत्ति में बेहतर आउटपुट बनाने में मदद करेगा।
प्रोटोटाइप प्रयोग
प्रोटोटाइप प्रयोगों में प्रयोगों के अनुसार कार्यों को असाइन करना और आउटपुट उत्पन्न करना शामिल है। किसी दिए गए कार्य में, हमें अंतर्दृष्टि प्राप्त करने के लिए पुनरावृत्त होना चाहिए और इन पुनरावृत्तियों को प्रयोगों के रूप में सर्वोत्तम रूप से समझाया जा सकता है।
डेटा का एकीकरण
सॉफ्टवेयर विकास के जीवन चक्र में डेटा के लिए आवश्यक विभिन्न चरण शामिल हैं -
customers
डेवलपर्स, और
व्यापार
डेटा का एकीकरण बेहतर संभावनाओं और आउटपुट के लिए मार्ग प्रशस्त करता है।
पिरामिड डेटा मान
उपरोक्त पिरामिड मूल्य ने "एजाइल डेटा साइंस" विकास के लिए आवश्यक परतों का वर्णन किया है। यह आवश्यकताओं के आधार पर रिकॉर्ड के संग्रह के साथ शुरू होता है और व्यक्तिगत रिकॉर्ड को नलसाजी करता है। चार्ट डेटा की सफाई और एकत्रीकरण के बाद बनाए जाते हैं। एकत्रित डेटा का उपयोग डेटा विज़ुअलाइज़ेशन के लिए किया जा सकता है। रिपोर्ट उचित संरचना, मेटाडेटा और डेटा के टैग के साथ उत्पन्न होती है। ऊपर से पिरामिड की दूसरी परत में भविष्यवाणी विश्लेषण शामिल है। भविष्यवाणी की परत वह जगह है जहां अधिक मूल्य बनाया जाता है, लेकिन अच्छी भविष्यवाणी बनाने में मदद करता है जो फीचर इंजीनियरिंग पर ध्यान केंद्रित करता है।
सबसे ऊपरी परत में ऐसी क्रियाएं शामिल होती हैं जहां डेटा का मूल्य प्रभावी रूप से संचालित होता है। इस कार्यान्वयन का सबसे अच्छा उदाहरण "कृत्रिम बुद्धिमत्ता" है।
इस अध्याय में, हम "फुर्तीली" नामक सॉफ्टवेयर विकास जीवन चक्र की अवधारणाओं पर ध्यान केंद्रित करेंगे। एजाइल सॉफ्टवेयर डेवलपमेंट मेथडोलॉजी 1 से 4 सप्ताह के छोटे पुनरावृत्तियों में वृद्धि सत्रों के माध्यम से एक सॉफ्टवेयर बनाने में मदद करता है ताकि विकास को व्यावसायिक आवश्यकताओं के साथ जोड़ा जाए।
12 सिद्धांत हैं जो चंचल पद्धति का विस्तार से वर्णन करते हैं -
ग्राहकों की संतुष्टि
मूल्यवान प्राथमिकता सॉफ्टवेयर के शुरुआती और निरंतर वितरण के माध्यम से आवश्यकताओं पर ध्यान केंद्रित करने वाले ग्राहकों को दी जाती है।
नए बदलावों का स्वागत करते हुए
सॉफ्टवेयर विकास के दौरान परिवर्तन स्वीकार्य हैं। चंचल प्रक्रियाओं को ग्राहक के प्रतिस्पर्धी लाभ से मेल खाने के लिए काम करने के लिए डिज़ाइन किया गया है।
वितरण
एक कार्यशील सॉफ़्टवेयर का वितरण एक से चार सप्ताह के भीतर ग्राहकों को दिया जाता है।
सहयोग
व्यावसायिक विश्लेषकों, गुणवत्ता विश्लेषकों और डेवलपर्स को परियोजना के पूरे जीवन चक्र के दौरान एक साथ काम करना होगा।
प्रेरणा
परियोजनाओं को प्रेरित व्यक्तियों के एक कबीले के साथ डिजाइन किया जाना चाहिए। यह व्यक्तिगत टीम के सदस्यों का समर्थन करने के लिए एक वातावरण प्रदान करता है।
व्यक्तिगत बातचीत
फेस-टू-फेस वार्तालाप विकास टीम के भीतर और भीतर जानकारी भेजने की सबसे कुशल और प्रभावी विधि है।
मापने की प्रगति
प्रगति को मापना वह कुंजी है जो परियोजना और सॉफ्टवेयर विकास की प्रगति को परिभाषित करने में मदद करती है।
निरंतर गति बनाए रखना
चंचल प्रक्रिया सतत विकास पर ध्यान केंद्रित करती है। व्यवसाय, डेवलपर्स और उपयोगकर्ताओं को परियोजना के साथ निरंतर गति बनाए रखने में सक्षम होना चाहिए।
निगरानी
फुर्तीली कार्यक्षमता को बढ़ाने के लिए तकनीकी उत्कृष्टता और अच्छे डिजाइन पर नियमित ध्यान रखना अनिवार्य है।
सादगी
फुर्तीली प्रक्रिया सब कुछ सरल रखती है और जो काम पूरा नहीं होता है उसे मापने के लिए सरल शब्दों का उपयोग करती है।
स्व-संगठित शब्द
एक फुर्तीली टीम को स्व-संगठित होना चाहिए और सर्वश्रेष्ठ वास्तुकला के साथ स्वतंत्र होना चाहिए; आवश्यकताओं और डिजाइन स्व-संगठित टीमों से निकलते हैं।
कार्य की समीक्षा करें
नियमित अंतराल पर काम की समीक्षा करना महत्वपूर्ण है ताकि टीम इस बात पर विचार कर सके कि काम कैसे आगे बढ़ रहा है। समय पर मॉड्यूल की समीक्षा करने से प्रदर्शन में सुधार होगा।
दैनिक स्टैंड-अप
दैनिक स्टैंड-अप टीम के सदस्यों के बीच दैनिक स्थिति की बैठक को संदर्भित करता है। यह सॉफ्टवेयर विकास से संबंधित अपडेट प्रदान करता है। यह परियोजना विकास की बाधाओं को संबोधित करने के लिए भी है।
दैनिक स्टैंड-अप एक अनिवार्य अभ्यास है, कोई फर्क नहीं पड़ता कि कैसे एक चुस्त टीम अपने कार्यालय स्थान की परवाह किए बिना स्थापित की जाती है।
एक दैनिक स्टैंड-अप की सुविधाओं की सूची इस प्रकार है -
दैनिक स्टैंड-अप मिलने की अवधि लगभग 15 मिनट होनी चाहिए। इसे लंबी अवधि के लिए विस्तारित नहीं करना चाहिए।
स्टैंड-अप में स्थिति अद्यतन पर चर्चा शामिल होनी चाहिए।
इस बैठक के प्रतिभागी आमतौर पर बैठक जल्दी समाप्त करने के इरादे से खड़े होते हैं।
प्रयोक्ता कहानी
एक कहानी आमतौर पर एक आवश्यकता होती है, जिसे सरल भाषा में कुछ वाक्यों में तैयार किया जाता है और इसे एक पुनरावृति के भीतर पूरा किया जाना चाहिए। एक उपयोगकर्ता कहानी में निम्नलिखित विशेषताएं शामिल होनी चाहिए -
सभी संबंधित कोड में संबंधित चेक-इन होना चाहिए।
निर्दिष्ट पुनरावृत्ति के लिए इकाई परीक्षण के मामले।
सभी स्वीकृति परीक्षण मामलों को परिभाषित किया जाना चाहिए।
कहानी को परिभाषित करते हुए उत्पाद के मालिक से स्वीकृति।
क्या है स्क्रैम?
स्क्रम को चुस्त कार्यप्रणाली का सबसेट माना जा सकता है। यह एक हल्की प्रक्रिया है और इसमें निम्नलिखित विशेषताएं शामिल हैं -
यह एक प्रक्रिया ढाँचा है, जिसमें प्रथाओं का एक समूह शामिल होता है जिन्हें लगातार क्रम में पालन करने की आवश्यकता होती है। Scrum का सबसे अच्छा चित्रण पुनरावृत्तियों या स्प्रिंट के बाद है।
यह एक "हल्का" प्रक्रिया है जिसका अर्थ है कि इस प्रक्रिया को जितना संभव हो उतना छोटा रखा गया है, निर्दिष्ट अवधि में उत्पादक उत्पादन को अधिकतम करने के लिए।
परंपरागत चुस्त दृष्टिकोण के अन्य तरीकों की तुलना में स्क्रैम प्रक्रिया को इसकी विशिष्ट प्रक्रिया के लिए जाना जाता है। इसे निम्नलिखित तीन श्रेणियों में बांटा गया है -
Roles
Artifacts
समय बक्से
रोल्स टीम के सदस्यों और उनकी भूमिकाओं को पूरी प्रक्रिया में शामिल करते हैं। स्क्रम टीम में निम्नलिखित तीन भूमिकाएँ शामिल हैं -
जमघट मास्टर
उत्पाद स्वामी
Team
स्क्रम कलाकृतियों में प्रमुख जानकारी दी गई है, जिसके बारे में प्रत्येक सदस्य को जानकारी होनी चाहिए। जानकारी में उत्पाद का विवरण, नियोजित गतिविधियाँ और पूर्ण की गई गतिविधियाँ शामिल हैं। स्क्रेम फ्रेमवर्क में परिभाषित कलाकृतियाँ इस प्रकार हैं -
उत्पाद बकाया
स्प्रिंट बैकलॉग
कार्य समय चार्ट
Increment
टाइम बॉक्स उपयोगकर्ता कहानियां हैं जो प्रत्येक पुनरावृत्ति के लिए योजनाबद्ध हैं। ये उपयोगकर्ता कहानियां उन उत्पाद सुविधाओं का वर्णन करने में मदद करती हैं जो स्क्रम कलाकृतियों का हिस्सा बनती हैं। उत्पाद बैकलॉग उपयोगकर्ता कहानियों की एक सूची है। इन उपयोगकर्ता कहानियों को प्राथमिकता दी जाती है और यह तय करने के लिए उपयोगकर्ता की बैठकों को अग्रेषित किया जाता है कि किसे लिया जाना चाहिए।
क्यों स्क्रैम मास्टर?
स्क्रैम मास्टर टीम के हर सदस्य के साथ बातचीत करता है। आइए अब हम अन्य टीमों और संसाधनों के साथ स्क्रैम मास्टर की बातचीत देखें।
उत्पाद स्वामी
स्क्रम मास्टर निम्नलिखित तरीके से उत्पाद के मालिक से बातचीत करता है -
उपयोगकर्ता कहानियों के प्रभावी उत्पाद बैकलॉग को प्राप्त करने और उन्हें प्रबंधित करने के लिए तकनीकों का पता लगाना।
टीम को स्पष्ट और संक्षिप्त उत्पाद बैकलॉग आइटम की जरूरतों को समझने में मदद करना।
विशिष्ट पर्यावरण के साथ उत्पाद योजना।
यह सुनिश्चित करना कि उत्पाद स्वामी जानता है कि उत्पाद का मूल्य कैसे बढ़ाया जाए।
आवश्यकता पड़ने पर स्क्रम घटनाओं को सुगम बनाना।
स्क्रम टीम
स्क्रम मास्टर टीम के साथ कई तरीकों से बातचीत करता है -
अपने स्क्रम अपनाने में संगठन को प्रशिक्षित करना।
विशिष्ट संगठन के लिए स्क्रम कार्यान्वयन की योजना बनाना।
उत्पाद विकास की आवश्यकता और चरणों को समझने के लिए कर्मचारियों और हितधारकों की मदद करना।
निर्दिष्ट टीम के स्क्रैम के आवेदन की प्रभावशीलता बढ़ाने के लिए अन्य टीमों के स्क्रैम मास्टर्स के साथ काम करना।
संगठन
स्क्रम मास्टर कई तरीकों से संगठन के साथ बातचीत करता है। नीचे कुछ उल्लेख किया गया है -
कोचिंग और स्क्रैम टीम स्व-संगठन के साथ बातचीत करती है और इसमें क्रॉस कार्यक्षमता की विशेषता शामिल होती है।
संगठन और टीमों को ऐसे क्षेत्रों में प्रशिक्षित करना, जहां स्क्रैम को अभी तक पूरी तरह से अपनाया नहीं गया है या स्वीकार नहीं किया गया है।
स्क्रेम के लाभ
स्क्रम ग्राहकों की मदद करता है, टीम के सदस्य और हितधारक सहयोग करते हैं। इसमें समयबद्ध दृष्टिकोण और उत्पाद के मालिक से निरंतर प्रतिक्रिया यह सुनिश्चित करना शामिल है कि उत्पाद काम करने की स्थिति में है। स्क्रैम परियोजना की विभिन्न भूमिकाओं के लिए लाभ प्रदान करता है।
ग्राहक
स्प्रिंट या पुनरावृत्तियों को छोटी अवधि के लिए माना जाता है और उपयोगकर्ता कहानियों को प्राथमिकता के अनुसार डिज़ाइन किया जाता है और स्प्रिंट प्लानिंग में लिया जाता है। यह सुनिश्चित करता है कि हर स्प्रिंट डिलीवरी, ग्राहकों की आवश्यकताएं पूरी हों। यदि नहीं, तो आवश्यकताओं को नोट किया जाता है और स्प्रिंट के लिए योजना बनाई जाती है और ली जाती है।
संगठन
स्क्रम और स्क्रैम मास्टर्स की सहायता से संगठन उपयोगकर्ता कहानियों के विकास के लिए आवश्यक प्रयासों पर ध्यान केंद्रित कर सकता है, इस प्रकार काम का अधिभार कम कर सकता है और यदि कोई हो तो पुनरावृत्ति से बचा जा सकता है। यह विकास टीम की बढ़ती दक्षता और ग्राहकों की संतुष्टि को बनाए रखने में भी मदद करता है। यह दृष्टिकोण बाजार की संभावनाओं को बढ़ाने में भी मदद करता है।
उत्पाद प्रबंधक
उत्पाद प्रबंधकों की मुख्य जिम्मेदारी यह सुनिश्चित करना है कि उत्पाद की गुणवत्ता बनाए रखी जाए। स्क्रेम मास्टर्स की मदद से, काम को सुविधाजनक बनाना, त्वरित प्रतिक्रियाएं इकट्ठा करना और यदि कोई हो तो परिवर्तनों को अवशोषित करना आसान हो जाता है। उत्पाद प्रबंधक यह भी सत्यापित करते हैं कि डिज़ाइन किया गया उत्पाद हर स्प्रिंट में ग्राहकों की आवश्यकताओं के अनुसार गठबंधन किया गया है।
विकास दल
समय-समय पर प्रकृति के साथ और समय की एक छोटी अवधि के लिए स्प्रिंट रखने के साथ, विकास टीम यह देखने के लिए उत्साहित हो जाती है कि काम ठीक से परिलक्षित और वितरित किया गया है। कार्य उत्पाद प्रत्येक पुनरावृत्ति के बाद प्रत्येक स्तर पर वृद्धि करता है या इसके बजाय हम उन्हें "स्प्रिंट" कह सकते हैं। उपयोगकर्ता कहानियां जो हर स्प्रिंट के लिए डिज़ाइन की जाती हैं, पुनरावृत्ति के लिए अधिक मूल्य जोड़कर ग्राहक प्राथमिकता बन जाती हैं।
निष्कर्ष
स्क्रम एक कुशल ढांचा है जिसके भीतर आप टीमवर्क में सॉफ्टवेयर विकसित कर सकते हैं। यह पूरी तरह से चुस्त सिद्धांतों पर डिज़ाइन किया गया है। ScrumMaster हर संभव तरीके से Scrum की टीम की मदद करने और सहयोग करने के लिए है। वह एक व्यक्तिगत ट्रेनर की तरह काम करता है जो आपको डिज़ाइन की गई योजना के साथ काम करने में मदद करता है और योजना के अनुसार सभी गतिविधियाँ करता है। स्क्रेममास्टर का अधिकार प्रक्रिया से आगे कभी नहीं बढ़ना चाहिए। उसे हर स्थिति का प्रबंधन करने में सक्षम होना चाहिए।
इस अध्याय में, हम डेटा विज्ञान प्रक्रिया और प्रक्रिया को समझने के लिए आवश्यक शब्दावली को समझेंगे।
"डेटा विज्ञान विश्लेषणात्मक जटिल समस्याओं को हल करने के लिए डेटा इंटरफ़ेस, एल्गोरिथ्म विकास और प्रौद्योगिकी का मिश्रण है"।
डेटा विज्ञान एक अंतःविषय क्षेत्र है जिसमें वैज्ञानिक तरीके, पारंपरिक अनुसंधान के साथ मशीन लर्निंग, गणित और सांख्यिकी ज्ञान के रूप में शामिल श्रेणियों के साथ वैज्ञानिक तरीकों, प्रक्रियाओं और प्रणालियों को शामिल किया गया है। इसमें महत्वपूर्ण विशेषज्ञता के साथ हैकिंग कौशल का एक संयोजन भी शामिल है। डेटा विज्ञान गणित, सांख्यिकी, सूचना विज्ञान और कंप्यूटर विज्ञान, डेटा खनन और भविष्य कहनेवाला विश्लेषण से सिद्धांतों को आकर्षित करता है।
डेटा विज्ञान टीम का हिस्सा बनने वाली विभिन्न भूमिकाएँ नीचे उल्लिखित हैं -
ग्राहकों
ग्राहक उत्पाद का उपयोग करने वाले लोग हैं। उनकी रुचि परियोजना की सफलता को निर्धारित करती है और डेटा साइंस में उनकी प्रतिक्रिया बहुत मूल्यवान है।
व्यापार विकास
डेटा विज्ञान की यह टीम शुरुआती ग्राहकों में या तो लैंडिंग पेज और प्रचार के माध्यम से हस्ताक्षर करती है। व्यवसाय विकास टीम उत्पाद के मूल्य का उद्धार करती है।
उत्पाद प्रबंधक
उत्पाद प्रबंधक सबसे अच्छा उत्पाद बनाने के लिए महत्व रखते हैं, जो बाजार में मूल्यवान है।
इंटरेक्शन डिजाइनर
वे डेटा मॉडल के आसपास डिज़ाइन इंटरैक्शन पर ध्यान केंद्रित करते हैं ताकि उपयोगकर्ताओं को उचित मूल्य मिल सके।
डेटा वैज्ञानिकों
डेटा वैज्ञानिक नई विशेषताओं को बनाने और प्रकाशित करने के लिए नए तरीकों से डेटा का पता लगाते हैं और उसे रूपांतरित करते हैं। ये वैज्ञानिक एक नया मान बनाने के लिए विविध स्रोतों से डेटा भी मिलाते हैं। वे शोधकर्ताओं, इंजीनियरों और वेब डेवलपर्स के साथ विज़ुअलाइज़ेशन बनाने में महत्वपूर्ण भूमिका निभाते हैं।
शोधकर्ताओं
जैसा कि नाम निर्दिष्ट करता है कि शोधकर्ता अनुसंधान गतिविधियों में शामिल हैं। वे जटिल समस्याओं को हल करते हैं, जो डेटा वैज्ञानिक नहीं कर सकते। इन समस्याओं में मशीन सीखने और सांख्यिकी मॉड्यूल का गहन ध्यान और समय शामिल है।
बदलने की आदत डालना
डेटा विज्ञान के सभी टीम सदस्यों को नए परिवर्तनों के अनुकूल होना और आवश्यकताओं के आधार पर काम करना आवश्यक है। डेटा साइंस के साथ फुर्तीली कार्यप्रणाली को अपनाने के लिए कई बदलाव किए जाने चाहिए, जिनका उल्लेख इस प्रकार है -
विशेषज्ञों पर सामान्यवादियों को चुनना।
बड़ी टीमों पर छोटी टीमों की पसंद।
उच्च-स्तरीय टूल और प्लेटफ़ॉर्म का उपयोग करना।
मध्यवर्ती कार्य का निरंतर और पुनरावृत्त साझाकरण।
Note
एजाइल डेटा साइंस टीम में, सामान्यवादियों की एक छोटी टीम उच्च-स्तरीय टूल का उपयोग करती है जो कि स्केलेबल हैं और पुनरावृत्तियों के माध्यम से डेटा को मूल्य के उच्चतर राज्यों में बदलते हैं।
डेटा विज्ञान टीम के सदस्यों के काम से संबंधित निम्नलिखित उदाहरणों पर विचार करें -
डिजाइनर सीएसएस वितरित करते हैं।
वेब डेवलपर्स पूरे एप्लिकेशन का निर्माण करते हैं, उपयोगकर्ता अनुभव और इंटरफ़ेस डिज़ाइन को समझते हैं।
डेटा वैज्ञानिकों को वेब अनुप्रयोगों सहित अनुसंधान और निर्माण वेब सेवाओं पर काम करना चाहिए।
शोधकर्ता कोड बेस में काम करते हैं, जो मध्यवर्ती परिणामों को बताते हुए परिणाम दिखाता है।
उत्पाद प्रबंधक सभी संबंधित क्षेत्रों की खामियों को पहचानने और समझने की कोशिश करते हैं।
इस अध्याय में, हम विभिन्न चुस्त उपकरणों और उनकी स्थापना के बारे में जानेंगे। फुर्तीली कार्यप्रणाली के विकास में घटकों के निम्नलिखित सेट शामिल हैं -
आयोजन
एक घटना एक घटना है जो होती है या इसकी विशेषताओं और टाइमस्टैम्प के साथ लॉग होती है।
एक घटना सर्वर, सेंसर, वित्तीय लेनदेन या कार्यों जैसे कई रूपों में आ सकती है, जो हमारे उपयोगकर्ता हमारे आवेदन में लेते हैं। इस पूर्ण ट्यूटोरियल में, हम JSON फ़ाइलों का उपयोग करेंगे जो विभिन्न उपकरणों और भाषाओं के बीच डेटा विनिमय की सुविधा प्रदान करेंगे।
कलेक्टरों
कलेक्टर ईवेंट एग्रीगेटर हैं। वे वास्तविक समय के श्रमिकों द्वारा कार्रवाई के लिए भारी डेटा को संग्रहीत करने और एकत्रित करने के लिए एक व्यवस्थित तरीके से घटनाओं को एकत्र करते हैं।
वितरित किए गए दस्तावेज़
इन दस्तावेज़ों में मल्टिनोड (कई नोड्स) शामिल हैं जो दस्तावेज़ को एक विशिष्ट प्रारूप में संग्रहीत करते हैं। हम इस ट्यूटोरियल में MongoDB पर ध्यान केंद्रित करेंगे।
वेब एप्लिकेशन सर्वर
वेब एप्लिकेशन सर्वर न्यूनतम ओवरहेड के साथ विज़ुअलाइज़ेशन के माध्यम से क्लाइंट के माध्यम से JSON के रूप में डेटा को सक्षम करता है। इसका मतलब है वेब एप्लिकेशन सर्वर फुर्तीली कार्यप्रणाली के साथ बनाई गई परियोजनाओं का परीक्षण और तैनाती में मदद करता है।
आधुनिक ब्राउज़र
यह आधुनिक ब्राउज़र या एप्लिकेशन को हमारे उपयोगकर्ताओं के लिए एक इंटरैक्टिव टूल के रूप में डेटा प्रस्तुत करने में सक्षम बनाता है।
स्थानीय पर्यावरण सेटअप
डेटा सेट के प्रबंधन के लिए, हम अजगर के एनाकोंडा ढांचे पर ध्यान केंद्रित करेंगे जिसमें एक्सेल, सीएसवी और कई और फाइलों के प्रबंधन के लिए उपकरण शामिल हैं। एक बार स्थापित एनाकोंडा ढांचे का डैशबोर्ड नीचे दिखाया गया है। इसे "एनाकोंडा नेविगेटर" भी कहा जाता है -
नेविगेटर में "ज्यूपिटर फ्रेमवर्क" शामिल है जो एक नोटबुक सिस्टम है जो डेटासेट को प्रबंधित करने में मदद करता है। एक बार जब आप फ्रेमवर्क लॉन्च करते हैं, तो इसे नीचे बताए अनुसार ब्राउज़र में होस्ट किया जाएगा -
इस अध्याय में, हम संरचित, अर्ध-संरचित और असंरचित डेटा के बीच अंतर पर ध्यान केंद्रित करेंगे।
संरचित डेटा
संरचित डेटा पंक्तियों और स्तंभों के साथ तालिका में SQL प्रारूप में संग्रहीत डेटा की चिंता करता है। इसमें एक संबंधपरक कुंजी शामिल है, जिसे पूर्व-डिज़ाइन किए गए फ़ील्ड में मैप किया गया है। संरचित डेटा का उपयोग बड़े पैमाने पर किया जाता है।
संरचित डेटा सभी सूचना विज्ञान डेटा के केवल 5 से 10 प्रतिशत का प्रतिनिधित्व करता है।
अर्ध-संरचित डेटा
सेमी-स्ट्रक्चर्ड डेटा में डेटा शामिल होता है जो रिलेशनल डेटाबेस में नहीं रहता है। उनमें कुछ संगठनात्मक गुण शामिल हैं जो विश्लेषण करना आसान बनाते हैं। इसमें उन्हें रिलेशनल डेटाबेस में संग्रहीत करने के लिए समान प्रक्रिया शामिल है। सेमी-स्ट्रक्चर्ड डेटाबेस के उदाहरण CSV फाइलें, XML और JSON दस्तावेज़ हैं। NoSQL डेटाबेस को सेमीस्ट्रक्टेड माना जाता है।
असंरचित डेटा
असंरचित डेटा 80 प्रतिशत डेटा का प्रतिनिधित्व करता है। इसमें अक्सर पाठ और मल्टीमीडिया सामग्री शामिल होती है। असंरचित डेटा के सर्वोत्तम उदाहरणों में ऑडियो फ़ाइलें, प्रस्तुतियाँ और वेब पेज शामिल हैं। मशीन का निर्माण न किए गए डेटा के उदाहरण हैं उपग्रह चित्र, वैज्ञानिक डेटा, तस्वीरें और वीडियो, रडार और सोनार डेटा।
उपरोक्त पिरामिड संरचना विशेष रूप से डेटा की मात्रा और उस अनुपात पर केंद्रित है जिस पर यह बिखरा हुआ है।
अर्ध-संरचित डेटा असंरचित और अर्ध-संरचित डेटा के बीच प्रकार के रूप में प्रकट होता है। इस ट्यूटोरियल में, हम सेमी-स्ट्रक्चर्ड डेटा पर ध्यान केंद्रित करेंगे, जो फुर्तीली कार्यप्रणाली और डेटा साइंस रिसर्च के लिए फायदेमंद है।
अर्ध संरचित डेटा में एक औपचारिक डेटा मॉडल नहीं होता है, लेकिन इसमें एक स्पष्ट, आत्मनिर्भर पैटर्न और संरचना होती है जिसे इसके विश्लेषण द्वारा विकसित किया जाता है।
इस ट्यूटोरियल का पूरा फोकस स्टेप की कम संख्या और अधिक उपयोगी टूल के कार्यान्वयन के साथ फुर्तीली कार्यप्रणाली का पालन करना है। इसे समझने के लिए, SQL और NoSQL डेटाबेस के बीच अंतर जानना महत्वपूर्ण है।
अधिकांश उपयोगकर्ता SQL डेटाबेस के बारे में जानते हैं, और MySQL, Oracle या अन्य SQL डेटाबेस पर अच्छा ज्ञान रखते हैं। पिछले कई वर्षों में, NoSQL डेटाबेस को विभिन्न व्यावसायिक समस्याओं और परियोजना की आवश्यकताओं को हल करने के लिए व्यापक रूप से अपनाया जा रहा है।
निम्न तालिका SQL और NoSQL डेटाबेस के बीच का अंतर दिखाती है -
एसक्यूएल | NoSQL |
---|---|
SQL डेटाबेस को मुख्य रूप से रिलेशनल डेटाबेस मैनेजमेंट सिस्टम (RDBMS) कहा जाता है। | NoSQL डेटाबेस को दस्तावेजी डेटाबेस भी कहा जाता है। यह गैर-संबंधपरक और वितरित है। |
SQL आधारित डेटाबेस में पंक्तियों और स्तंभों के साथ तालिका की संरचना शामिल है। डेटाबेस नामक तालिकाओं और अन्य स्कीमा संरचनाओं का संग्रह। | NoSQL डेटाबेस में प्रमुख संरचना के रूप में दस्तावेज शामिल हैं और दस्तावेजों के समावेश को संग्रह कहा जाता है। |
SQL डेटाबेस में पूर्वनिर्धारित स्कीमा शामिल होता है। | NoSQL डेटाबेस में गतिशील डेटा होता है और इसमें असंरचित डेटा शामिल होता है। |
SQL डेटाबेस वर्टिकल स्केलेबल हैं। | NoSQL डेटाबेस क्षैतिज स्केलेबल हैं। |
SQL क्वेरी जटिल क्वेरी वातावरण के लिए अच्छे हैं। | NoSQL जटिल क्वेरी विकास के लिए मानक इंटरफेस नहीं है। |
SQL डेटाबेस hierarchal डेटा भंडारण के लिए संभव नहीं हैं। | NoSQL डेटाबेस पदानुक्रमित डेटा भंडारण के लिए बेहतर फिट बैठता है। |
निर्दिष्ट अनुप्रयोगों में भारी लेनदेन के लिए SQL डेटाबेस सबसे उपयुक्त हैं। | NoSQL डेटाबेस को अभी भी जटिल लेनदेन अनुप्रयोगों के लिए उच्च भार में तुलनीय नहीं माना जाता है। |
SQL डेटाबेस उनके विक्रेताओं के लिए उत्कृष्ट समर्थन प्रदान करता है। | NoSQL डेटाबेस अभी भी समुदाय के समर्थन पर निर्भर करता है। केवल कुछ विशेषज्ञ सेटअप के लिए उपलब्ध हैं और बड़े पैमाने पर NoSQL तैनाती के लिए तैनात हैं। |
SQL डेटाबेस ACID गुणों पर केंद्रित है - परमाणु, संगति, अलगाव और स्थायित्व। | NoSQL डेटाबेस CAP गुणों पर केंद्रित है - संगति, उपलब्धता और विभाजन सहिष्णुता। |
SQL डेटाबेस को उन विक्रेताओं के आधार पर खुले स्रोत या बंद स्रोत के रूप में वर्गीकृत किया जा सकता है जिन्होंने उन्हें चुना है। | NoSQL डेटाबेस को स्टोरेज प्रकार के आधार पर वर्गीकृत किया जाता है। NoSQL डेटाबेस डिफ़ॉल्ट रूप से खुला स्रोत हैं। |
फुर्तीली के लिए NoSQL क्यों?
उपर्युक्त तुलना से पता चलता है कि NoSQL दस्तावेज़ डेटाबेस पूरी तरह से चुस्त विकास का समर्थन करता है। यह स्कीमा-कम है और डेटा मॉडलिंग पर पूरी तरह से ध्यान केंद्रित नहीं करता है। इसके बजाय, NoSQL अनुप्रयोगों और सेवाओं को धता बताता है और इस तरह डेवलपर्स को बेहतर विचार मिलता है कि डेटा को कैसे मॉडल किया जा सकता है। NoSQL आवेदन मॉडल के रूप में डेटा मॉडल को परिभाषित करता है।
MongoDB स्थापना
इस ट्यूटोरियल के दौरान, हम MongoDB के उदाहरणों पर अधिक ध्यान केंद्रित करेंगे क्योंकि इसे सबसे अच्छा "NoSQL स्कीमा" माना जाता है।
ऐसे समय होते हैं जब डेटा रिलेशनल फॉर्मेट में अनुपलब्ध होता है और हमें NoSQL डेटाबेस की मदद से इसे ट्रांसेक्शनल रखना पड़ता है।
इस अध्याय में, हम NoSQL के डेटाफ्लो पर ध्यान केंद्रित करेंगे। हम यह भी सीखेंगे कि यह चुस्त और डेटा विज्ञान के संयोजन के साथ कैसे चालू है।
फुर्ती के साथ NoSQL का उपयोग करने का एक प्रमुख कारण बाजार में प्रतिस्पर्धा के साथ गति को बढ़ाना है। निम्नलिखित कारणों से पता चलता है कि NoSQL कैसे चुस्त सॉफ्टवेयर पद्धति के लिए सबसे उपयुक्त है -
कम बाधाओं
मॉडल को बदलना, जो वर्तमान में मध्य-धारा से गुजर रहा है, चुस्त विकास के मामले में भी कुछ वास्तविक लागतें हैं। NoSQL के साथ, उपयोगकर्ता डेटा को सामान्य करने में समय बर्बाद करने के बजाय कुल डेटा के साथ काम करते हैं। मुख्य बिंदु मॉडल पूर्ण डेटा बनाने के लक्ष्य के साथ कुछ किया जाना और काम करना है।
बढ़ी हुई स्केलेबिलिटी
जब भी कोई संगठन उत्पाद बना रहा होता है, तो वह अपनी मापनीयता पर अधिक ध्यान केंद्रित करता है। NoSQL हमेशा अपनी स्केलेबिलिटी के लिए जाना जाता है लेकिन यह क्षैतिज स्केलेबिलिटी के साथ डिज़ाइन किए जाने पर बेहतर काम करता है।
डेटा का लाभ उठाने की क्षमता
NoSQL एक स्कीमा-कम डेटा मॉडल है जो उपयोगकर्ता को डेटा के संस्करणों का आसानी से उपयोग करने की अनुमति देता है, जिसमें परिवर्तनशीलता और वेग के कई पैरामीटर शामिल हैं। प्रौद्योगिकी की पसंद पर विचार करते समय, आपको हमेशा उस पर विचार करना चाहिए, जो डेटा का अधिक से अधिक लाभ उठाता है।
NoSQL का डेटाफ़्लो
आइए हम निम्नलिखित उदाहरण पर विचार करें जिसमें, हमने दिखाया है कि कैसे एक डेटा मॉडल RDBMS स्कीमा बनाने पर केंद्रित है।
स्कीमा की विभिन्न आवश्यकताएँ निम्नलिखित हैं -
उपयोगकर्ता पहचान सूचीबद्ध की जानी चाहिए।
प्रत्येक उपयोगकर्ता के पास कम से कम एक कौशल होना अनिवार्य है।
प्रत्येक उपयोगकर्ता के अनुभव का विवरण ठीक से बनाए रखा जाना चाहिए।
उपयोगकर्ता तालिका 3 अलग-अलग तालिकाओं के साथ सामान्यीकृत है -
Users
उपयोगकर्ता कौशल
प्रयोगकर्ता का अनुभव
डेटाबेस की क्वेरी करते समय जटिलता बढ़ जाती है और समय की खपत में वृद्धि सामान्यीकरण के साथ नोट की जाती है जो कि एजाइल पद्धति के लिए अच्छा नहीं है। नीचे लिखे अनुसार No स्कीमा को NoSQL डेटाबेस के साथ डिज़ाइन किया जा सकता है -
NoSQL JSON प्रारूप में संरचना को बनाए रखता है, जो संरचना में हल्का-वजन है। JSON के साथ, अनुप्रयोग एकल डेटा के रूप में नेस्टेड डेटा के साथ ऑब्जेक्ट को स्टोर कर सकते हैं।
इस अध्याय में, हम JSON संरचना पर ध्यान केंद्रित करेंगे, जो "फुर्तीली कार्यप्रणाली" का हिस्सा है। MongoDB एक व्यापक रूप से उपयोग की जाने वाली NoSQL डेटा संरचना है और रिकॉर्ड एकत्र करने और प्रदर्शित करने के लिए आसानी से संचालित होती है।
चरण 1
इस चरण में संग्रह और निर्दिष्ट डेटा मॉडल बनाने के लिए MongoDB के साथ संबंध स्थापित करना शामिल है। आप सभी को निष्पादित करने की आवश्यकता है "mongod" कमांड शुरू करने के लिए कनेक्शन और mongo कमांड निर्दिष्ट टर्मिनल से कनेक्ट करने के लिए।
चरण 2
JSON प्रारूप में रिकॉर्ड बनाने के लिए एक नया डेटाबेस बनाएं। अभी के लिए, हम "mydb" नामक एक डमी डेटाबेस बना रहे हैं।
>use mydb
switched to db mydb
>db
mydb
>show dbs
local 0.78125GB
test 0.23012GB
>db.user.insert({"name":"Agile Data Science"})
>show dbs
local 0.78125GB
mydb 0.23012GB
test 0.23012GB
चरण 3
अभिलेखों की सूची प्राप्त करने के लिए संग्रह बनाना अनिवार्य है। यह फीचर डेटा साइंस रिसर्च और आउटपुट के लिए फायदेमंद है।
>use test
switched to db test
>db.createCollection("mycollection")
{ "ok" : 1 }
>show collections
mycollection
system.indexes
>db.createCollection("mycol", { capped : true, autoIndexId : true, size :
6142800, max : 10000 } )
{ "ok" : 1 }
>db.agiledatascience.insert({"name" : "demoname"})
>show collections
mycol
mycollection
system.indexes
demoname
डेटा विज़ुअलाइज़ेशन डेटा साइंस में बहुत महत्वपूर्ण भूमिका निभाता है। हम डेटा विज़ुअलाइज़ेशन को डेटा साइंस के एक मॉड्यूल के रूप में मान सकते हैं। डेटा साइंस में पूर्वानुमान मॉडल के निर्माण से अधिक शामिल हैं। इसमें मॉडल की व्याख्या और डेटा को समझने और निर्णय लेने के लिए उनका उपयोग करना शामिल है। डेटा विज़ुअलाइज़ेशन डेटा को सबसे ठोस तरीके से पेश करने का एक अभिन्न अंग है।
डेटा विज्ञान के दृष्टिकोण से, डेटा विज़ुअलाइज़ेशन एक हाइलाइटिंग सुविधा है जो परिवर्तनों और रुझानों को दिखाती है।
प्रभावी डेटा विज़ुअलाइज़ेशन के लिए निम्नलिखित दिशानिर्देशों पर विचार करें -
सामान्य पैमाने के साथ स्थिति डेटा।
मंडलियों और वर्गों की तुलना में सलाखों का उपयोग अधिक प्रभावी है।
तितर बितर भूखंडों के लिए उचित रंग का उपयोग किया जाना चाहिए।
अनुपात दिखाने के लिए पाई चार्ट का उपयोग करें।
सनबर्स्ट विज़ुअलाइज़ेशन पदानुक्रमित भूखंडों के लिए अधिक प्रभावी है।
एजाइल को डेटा विज़ुअलाइज़ेशन के लिए एक सरल स्क्रिप्टिंग भाषा की आवश्यकता है और डेटा साइंस के सहयोग से "पायथन" डेटा विज़ुअलाइज़ेशन के लिए सुझाई गई भाषा है।
उदाहरण 1
निम्न उदाहरण विशिष्ट वर्षों में गणना की गई जीडीपी के डेटा दृश्य को प्रदर्शित करता है। "Matplotlib" पायथन में डेटा विज़ुअलाइज़ेशन के लिए सबसे अच्छा पुस्तकालय है। इस पुस्तकालय की स्थापना नीचे दी गई है -
इसे समझने के लिए निम्नलिखित कोड पर विचार करें -
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
उत्पादन
उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करता है -
अक्ष लेबल, रेखा शैलियों और बिंदु मार्कर के साथ चार्ट को अनुकूलित करने के कई तरीके हैं। आइए अगले उदाहरण पर ध्यान दें जो बेहतर डेटा विज़ुअलाइज़ेशन को प्रदर्शित करता है। इन परिणामों का उपयोग बेहतर आउटपुट के लिए किया जा सकता है।
उदाहरण 2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
उत्पादन
उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करता है -
डेटा संवर्धन कच्चे डेटा को बढ़ाने, परिष्कृत करने और सुधारने के लिए उपयोग की जाने वाली प्रक्रियाओं की एक श्रृंखला को संदर्भित करता है। यह उपयोगी डेटा परिवर्तन (उपयोगी जानकारी के लिए कच्चे डेटा) को संदर्भित करता है। डेटा संवर्धन की प्रक्रिया डेटा को आधुनिक व्यवसाय या उद्यम के लिए एक मूल्यवान डेटा संपत्ति बनाने पर केंद्रित है।
सबसे आम डेटा संवर्धन प्रक्रिया में विशिष्ट निर्णय एल्गोरिदम के उपयोग के माध्यम से डेटाबेस में वर्तनी की गलतियों या टाइपोग्राफिक त्रुटियों का सुधार शामिल है। डेटा संवर्धन उपकरण सरल डेटा तालिकाओं में उपयोगी जानकारी जोड़ते हैं।
शब्दों के वर्तनी सुधार के लिए निम्नलिखित कोड पर विचार करें -
import re
from collections import Counter
def words(text): return re.findall(r'\w+', text.lower())
WORDS = Counter(words(open('big.txt').read()))
def P(word, N=sum(WORDS.values())):
"Probabilities of words"
return WORDS[word] / N
def correction(word):
"Spelling correction of word"
return max(candidates(word), key=P)
def candidates(word):
"Generate possible spelling corrections for word."
return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])
def known(words):
"The subset of `words` that appear in the dictionary of WORDS."
return set(w for w in words if w in WORDS)
def edits1(word):
"All edits that are one edit away from `word`."
letters = 'abcdefghijklmnopqrstuvwxyz'
splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
deletes = [L + R[1:] for L, R in splits if R]
transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
replaces = [L + c + R[1:] for L, R in splits if R for c in letters]
inserts = [L + c + R for L, R in splits for c in letters]
return set(deletes + transposes + replaces + inserts)
def edits2(word):
"All edits that are two edits away from `word`."
return (e2 for e1 in edits1(word) for e2 in edits1(e1))
print(correction('speling'))
print(correction('korrectud'))
इस कार्यक्रम में, हम "big.txt" के साथ मिलान करेंगे जिसमें सही शब्द शामिल हैं। शब्द पाठ फ़ाइल में शामिल शब्दों से मेल खाते हैं और तदनुसार उचित परिणाम प्रिंट करते हैं।
उत्पादन
उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करेगा -
इस अध्याय में, हम रिपोर्ट निर्माण के बारे में जानेंगे, जो चुस्त कार्यप्रणाली का एक महत्वपूर्ण मॉड्यूल है। फुर्तीली फुर्तीली रिपोर्ट में विज़ुअलाइज़ेशन द्वारा बनाए गए चंचल चार्ट पृष्ठ। रिपोर्टों के साथ, चार्ट इंटरैक्टिव हो जाते हैं, स्थैतिक पृष्ठ गतिशील और नेटवर्क से संबंधित डेटा बन जाते हैं। डेटा मूल्य पिरामिड की रिपोर्ट चरण की विशेषताओं को नीचे दिखाया गया है -
हम सीएसवी फ़ाइल बनाने पर अधिक तनाव रखेंगे, जिसका उपयोग डेटा विज्ञान विश्लेषण और ड्राइंग निष्कर्ष के लिए रिपोर्ट के रूप में किया जा सकता है। हालांकि कम दस्तावेज़ीकरण पर फुर्तीली लोमड़ियों, उत्पाद विकास की प्रगति का उल्लेख करने के लिए रिपोर्ट बनाना हमेशा माना जाता है।
import csv
#----------------------------------------------------------------------
def csv_writer(data, path):
"""
Write data to a CSV file path
"""
with open(path, "wb") as csv_file:
writer = csv.writer(csv_file, delimiter=',')
for line in data:
writer.writerow(line)
#----------------------------------------------------------------------
if __name__ == "__main__":
data = ["first_name,last_name,city".split(","),
"Tyrese,Hirthe,Strackeport".split(","),
"Jules,Dicki,Lake Nickolasville".split(","),
"Dedric,Medhurst,Stiedemannberg".split(",")
]
path = "output.csv"
csv_writer(data, path)
उपरोक्त कोड आपको "सीएसवी फ़ाइल" उत्पन्न करने में मदद करेगा जैसा कि नीचे दिखाया गया है -
आइए csv के निम्नलिखित लाभों पर विचार करें (अल्पविराम से अलग मूल्य) रिपोर्ट -
- यह मानव के अनुकूल है और मैन्युअल रूप से संपादित करना आसान है।
- यह लागू करने और पार्स करने के लिए सरल है।
- CSV को सभी अनुप्रयोगों में संसाधित किया जा सकता है।
- यह संभाल करने के लिए छोटा और तेज है।
- CSV एक मानक प्रारूप का अनुसरण करता है।
- यह डेटा वैज्ञानिकों के लिए सीधा स्कीमा प्रदान करता है।
इस अध्याय में, हम चुस्त डेटा विज्ञान में भविष्यवाणियों की भूमिका के बारे में अर्जित करेंगे। इंटरेक्टिव रिपोर्ट डेटा के विभिन्न पहलुओं को उजागर करती है। भविष्यवाणियां फुर्तीली स्प्रिंट की चौथी परत बनाती हैं।
भविष्यवाणियां करते समय, हम हमेशा पिछले डेटा का उल्लेख करते हैं और भविष्य के पुनरावृत्तियों के लिए इनफ़ॉर्मेशन के रूप में उपयोग करते हैं। इस पूरी प्रक्रिया में, हम ऐतिहासिक डेटा के बैच प्रसंस्करण से डेटा को भविष्य के बारे में वास्तविक समय के डेटा में परिवर्तित करते हैं।
भविष्यवाणियों की भूमिका में निम्नलिखित शामिल हैं -
पूर्वानुमानों में पूर्वानुमान मदद करते हैं। कुछ पूर्वानुमान सांख्यिकीय अनुमान पर आधारित हैं। कुछ भविष्यवाणियाँ पंडितों की राय पर आधारित हैं।
सांख्यिकीय निष्कर्ष सभी प्रकार की भविष्यवाणियों के साथ शामिल हैं।
कभी-कभी पूर्वानुमान सटीक होते हैं, जबकि कभी-कभी पूर्वानुमान गलत होते हैं।
भविष्यिक विश्लेषण
प्रीडिक्टिव एनालिटिक्स में प्रेडिक्टिव मॉडलिंग, मशीन लर्निंग और डेटा माइनिंग से कई तरह की सांख्यिकीय तकनीकें शामिल हैं जो भविष्य और अज्ञात घटनाओं के बारे में भविष्यवाणियां करने के लिए वर्तमान और ऐतिहासिक तथ्यों का विश्लेषण करती हैं।
प्रिडिक्टिव एनालिटिक्स के लिए प्रशिक्षण डेटा की आवश्यकता होती है। प्रशिक्षित डेटा में स्वतंत्र और निर्भर विशेषताएं शामिल हैं। आश्रित विशेषताएं वे मान हैं जो एक उपयोगकर्ता भविष्यवाणी करने की कोशिश कर रहा है। स्वतंत्र विशेषताएं उन सुविधाओं का वर्णन करने वाली विशेषताएं हैं, जिन पर हम आश्रित सुविधाओं के आधार पर भविष्यवाणी करना चाहते हैं।
सुविधाओं के अध्ययन को फीचर इंजीनियरिंग कहा जाता है; यह भविष्यवाणी करने के लिए महत्वपूर्ण है। डेटा विज़ुअलाइज़ेशन और खोजपूर्ण डेटा विश्लेषण फ़ीचर इंजीनियरिंग के भाग हैं; इनका मूल रूप हैAgile data science।
पूर्वानुमान करना
चुस्त डेटा विज्ञान में भविष्यवाणियां करने के दो तरीके हैं -
Regression
Classification
एक प्रतिगमन या एक वर्गीकरण का निर्माण पूरी तरह से व्यावसायिक आवश्यकताओं और उसके विश्लेषण पर निर्भर करता है। निरंतर चर की भविष्यवाणी प्रतिगमन मॉडल की ओर ले जाती है और श्रेणीगत चर की भविष्यवाणी वर्गीकरण मॉडल की ओर ले जाती है।
वापसी
प्रतिगमन उन उदाहरणों पर विचार करता है जिनमें विशेषताएं शामिल होती हैं और जिससे, एक संख्यात्मक आउटपुट उत्पन्न होता है।
वर्गीकरण
वर्गीकरण इनपुट लेता है और एक वर्गीकृत वर्गीकरण पैदा करता है।
Note - उदाहरण डेटासेट जो सांख्यिकीय भविष्यवाणी के लिए इनपुट को परिभाषित करता है और जो मशीन को सीखने में सक्षम बनाता है, उसे "प्रशिक्षण डेटा" कहा जाता है।
इस अध्याय में, हम एजाइल डेटा साइंस में PySpark के साथ एक्सट्रैक्टिंग फीचर्स के बारे में जानेंगे।
स्पार्क का अवलोकन
अपाचे स्पार्क को तेजी से वास्तविक समय प्रसंस्करण ढांचे के रूप में परिभाषित किया जा सकता है। यह वास्तविक समय में डेटा का विश्लेषण करने के लिए गणना करता है। Apache Spark को रियल-टाइम में स्ट्रीम प्रोसेसिंग सिस्टम के रूप में पेश किया गया है और यह बैच प्रोसेसिंग का भी ध्यान रख सकता है। अपाचे स्पार्क इंटरैक्टिव प्रश्नों और पुनरावृत्त एल्गोरिदम का समर्थन करता है।
स्पार्क को "स्काला प्रोग्रामिंग भाषा" में लिखा गया है।
पाइस्पार्क को स्पार्क के साथ पाइथन के संयोजन के रूप में माना जा सकता है। PySpark PySpark शेल प्रदान करता है, जो Python API को स्पार्क कोर से जोड़ता है और स्पार्क संदर्भ को इनिशियलाइज़ करता है। पिछले अध्याय में चर्चा के अनुसार अधिकांश डेटा वैज्ञानिक ट्रैकिंग सुविधाओं के लिए PySpark का उपयोग करते हैं।
इस उदाहरण में, हम एक गणना नामक डेटासेट बनाने के लिए परिवर्तनों पर ध्यान केंद्रित करेंगे और इसे किसी विशेष फ़ाइल में सहेजेंगे।
text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")
PySpark का उपयोग करते हुए, एक उपयोगकर्ता अजगर प्रोग्रामिंग भाषा में RDDs के साथ काम कर सकता है। इनबिल्ट लाइब्रेरी, जो डेटा ड्रिवन दस्तावेजों और घटकों की मूल बातें शामिल करती है, इसमें मदद करती है।
लॉजिस्टिक रिग्रेशन मशीन लर्निंग एल्गोरिदम को संदर्भित करता है जिसका उपयोग श्रेणीबद्ध निर्भर चर की संभावना का अनुमान लगाने के लिए किया जाता है। लॉजिस्टिक रिग्रेशन में, निर्भर चर बाइनरी वैरिएबल है, जिसमें 1 के रूप में कोडित डेटा होता है (सही और गलत के बूलियन मान)।
इस अध्याय में, हम निरंतर चर का उपयोग करके पायथन में एक प्रतिगमन मॉडल विकसित करने पर ध्यान केंद्रित करेंगे। रैखिक प्रतिगमन मॉडल का उदाहरण CSV फ़ाइल से डेटा की खोज पर केंद्रित होगा।
वर्गीकरण लक्ष्य यह भविष्यवाणी करना है कि क्या ग्राहक एक टर्म डिपॉजिट के लिए (1/0) सदस्यता लेगा।
import pandas as pd
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
plt.rc("font", size=14)
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
import seaborn as sns
sns.set(style="white")
sns.set(style="whitegrid", color_codes=True)
data = pd.read_csv('bank.csv', header=0)
data = data.dropna()
print(data.shape)
print(list(data.columns))
एनाकोंडा नेविगेटर में उपरोक्त कोड "जुपिटर नोटबुक" को लागू करने के लिए इन चरणों का पालन करें -
Step 1 - एनाकोंडा नेविगेटर के साथ जुपिटर नोटबुक लॉन्च करें।
Step 2 - व्यवस्थित तरीके से प्रतिगमन मॉडल का आउटपुट प्राप्त करने के लिए csv फ़ाइल अपलोड करें।
Step 3 - एक नई फ़ाइल बनाएं और वांछित आउटपुट प्राप्त करने के लिए उपर्युक्त कोड लाइन निष्पादित करें।
इस उदाहरण में, हम यह जानेंगे कि भविष्यवाणियाँ कैसे बनाई और तैनात की जाती हैं जो कि पायथन लिपि का उपयोग करके घर की कीमतों की भविष्यवाणी में मदद करता है। प्रेडिक्टिव सिस्टम की तैनाती के लिए उपयोग किए जाने वाले महत्वपूर्ण ढांचे में एनाकोंडा और "जुपिटर नोटबुक" शामिल हैं।
भविष्य कहनेवाला प्रणाली को तैनात करने के लिए इन चरणों का पालन करें -
Step 1 - सीएसवी फ़ाइलों से मूल्यों को संबंधित मूल्यों में बदलने के लिए निम्नलिखित कोड को लागू करें।
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import mpl_toolkits
%matplotlib inline
data = pd.read_csv("kc_house_data.csv")
data.head()
उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करता है -
Step 2 - सीएसवी फ़ाइलों के लिए जिम्मेदार डेटा प्रकारों को शामिल करने के लिए विवरण फ़ंक्शन का निष्पादन करें।
data.describe()
Step 3 - हमारे द्वारा बनाए गए प्रेडिक्टिव मॉडल की तैनाती के आधार पर हम संबंधित मूल्यों को गिरा सकते हैं।
train1 = data.drop(['id', 'price'],axis=1)
train1.head()
Step 4- आप रिकॉर्ड के अनुसार डेटा की कल्पना कर सकते हैं। डेटा का उपयोग डेटा विज्ञान विश्लेषण और श्वेत पत्र के उत्पादन के लिए किया जा सकता है।
data.floors.value_counts().plot(kind='bar')
मशीन लर्निंग लाइब्रेरी को "स्पार्कलएम" या "एमएललिब" भी कहा जाता है, जिसमें वर्गीकरण, प्रतिगमन, क्लस्टरिंग और सहयोगी फ़िल्टरिंग सहित सामान्य शिक्षण एल्गोरिदम शामिल हैं।
चंचल के लिए स्पार्कलएम क्यों सीखें?
स्पार्क मशीन लर्निंग एल्गोरिदम और अनुप्रयोगों के निर्माण के लिए डी-फैक्टो प्लेटफॉर्म बन रहा है। डेवलपर्स स्पार्क में मशीन एल्गोरिदम को एक स्केलेबल और संक्षिप्त तरीके से लागू करने के लिए स्पार्क पर काम करते हैं। हम इस ढांचे के साथ मशीन सीखने, इसकी उपयोगिताओं और एल्गोरिदम की अवधारणाओं को सीखेंगे। चुस्त हमेशा एक ढांचे के लिए विरोध करता है, जो छोटे और त्वरित परिणाम देता है।
एमएल एल्गोरिदम
एमएल एल्गोरिदम में वर्गीकरण, प्रतिगमन, क्लस्टरिंग और सहयोगी फ़िल्टरिंग जैसे सामान्य शिक्षण एल्गोरिदम शामिल हैं।
विशेषताएं
इसमें सुविधा निष्कर्षण, परिवर्तन, आयाम में कमी और चयन शामिल हैं।
पाइपलाइनों
पाइपलाइन मशीन-लर्निंग पाइपलाइनों के निर्माण, मूल्यांकन और ट्यूनिंग के लिए उपकरण प्रदान करते हैं।
लोकप्रिय एल्गोरिदम
निम्नलिखित कुछ लोकप्रिय एल्गोरिदम हैं -
बुनियादी सांख्यिकी
Regression
Classification
सिफारिश प्रणाली
Clustering
आयाम में कमी
सुविधा निकासी
Optimization
सिफारिश प्रणाली
एक सिफारिश प्रणाली सूचना फ़िल्टरिंग प्रणाली का एक उपवर्ग है जो "रेटिंग" और "वरीयता" की भविष्यवाणी करता है जो एक उपयोगकर्ता किसी दिए गए आइटम का सुझाव देता है।
सिफारिश प्रणाली में विभिन्न फ़िल्टरिंग सिस्टम शामिल हैं, जिनका उपयोग निम्नानुसार किया जाता है -
सहयोगी को छानने
इसमें पिछले व्यवहार के साथ-साथ अन्य उपयोगकर्ताओं द्वारा किए गए समान निर्णयों के आधार पर एक मॉडल का निर्माण शामिल है। इस विशिष्ट फ़िल्टरिंग मॉडल का उपयोग उन वस्तुओं की भविष्यवाणी करने के लिए किया जाता है, जिन्हें उपयोगकर्ता लेने में रुचि रखता है।
सामग्री आधारित फ़िल्टरिंग
इसमें समान गुणों के साथ नए आइटमों की सिफारिश करने और जोड़ने के लिए किसी आइटम की असतत विशेषताओं को फ़िल्टर करना शामिल है।
हमारे बाद के अध्यायों में, हम एक विशिष्ट समस्या को हल करने के लिए सिफारिश प्रणाली के उपयोग पर ध्यान केंद्रित करेंगे और चुस्त कार्यप्रणाली बिंदु से भविष्यवाणी के प्रदर्शन में सुधार करेंगे।
इस अध्याय में, हम एक विशिष्ट परिदृश्य की मदद से एक भविष्यवाणी समस्या को ठीक करने पर ध्यान केंद्रित करेंगे।
विचार करें कि कोई कंपनी ऑनलाइन आवेदन पत्र के माध्यम से प्रदान की गई ग्राहक विवरण के अनुसार ऋण पात्रता विवरण को स्वचालित करना चाहती है। विवरण में ग्राहक का नाम, लिंग, वैवाहिक स्थिति, ऋण राशि और अन्य अनिवार्य विवरण शामिल हैं।
विवरण सीएसवी फ़ाइल में दर्ज किया गया है जैसा कि नीचे दिखाया गया है -
भविष्यवाणी की समस्या का मूल्यांकन करने के लिए निम्न कोड निष्पादित करें -
import pandas as pd
from sklearn import ensemble
import numpy as np
from scipy.stats import mode
from sklearn import preprocessing,model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
#loading the dataset
data=pd.read_csv('train.csv',index_col='Loan_ID')
def num_missing(x):
return sum(x.isnull())
#imputing the the missing values from the data
data['Gender'].fillna(mode(list(data['Gender'])).mode[0], inplace=True)
data['Married'].fillna(mode(list(data['Married'])).mode[0], inplace=True)
data['Self_Employed'].fillna(mode(list(data['Self_Employed'])).mode[0], inplace=True)
# print (data.apply(num_missing, axis=0))
# #imputing mean for the missing value
data['LoanAmount'].fillna(data['LoanAmount'].mean(), inplace=True)
mapping={'0':0,'1':1,'2':2,'3+':3}
data = data.replace({'Dependents':mapping})
data['Dependents'].fillna(data['Dependents'].mean(), inplace=True)
data['Loan_Amount_Term'].fillna(method='ffill',inplace=True)
data['Credit_History'].fillna(method='ffill',inplace=True)
print (data.apply(num_missing,axis=0))
#converting the cateogorical data to numbers using the label encoder
var_mod = ['Gender','Married','Education','Self_Employed','Property_Area','Loan_Status']
le = LabelEncoder()
for i in var_mod:
le.fit(list(data[i].values))
data[i] = le.transform(list(data[i]))
#Train test split
x=['Gender','Married','Education','Self_Employed','Property_Area','LoanAmount', 'Loan_Amount_Term','Credit_History','Dependents']
y=['Loan_Status']
print(data[x])
X_train,X_test,y_train,y_test=model_selection.train_test_split(data[x],data[y], test_size=0.2)
#
# #Random forest classifier
# clf=ensemble.RandomForestClassifier(n_estimators=100,
criterion='gini',max_depth=3,max_features='auto',n_jobs=-1)
clf=ensemble.RandomForestClassifier(n_estimators=200,max_features=3,min_samples
_split=5,oob_score=True,n_jobs=-1,criterion='entropy')
clf.fit(X_train,y_train)
accuracy=clf.score(X_test,y_test)
print(accuracy)
उत्पादन
उपरोक्त कोड निम्न आउटपुट उत्पन्न करता है।
इस अध्याय में, हम एक मॉडल बनाने पर ध्यान केंद्रित करेंगे जो इसमें शामिल कई विशेषताओं के साथ छात्र के प्रदर्शन की भविष्यवाणी में मदद करता है। ध्यान एक परीक्षा में छात्रों के विफलता परिणाम प्रदर्शित करने के लिए है।
प्रोसेस
मूल्यांकन का लक्ष्य मूल्य G3 है। इस मूल्यों को बिना असफलता और सफलता के रूप में वर्गीकृत किया जा सकता है। यदि जी 3 मान 10 से अधिक या उसके बराबर है, तो छात्र परीक्षा उत्तीर्ण करता है।
उदाहरण
निम्न उदाहरण पर विचार करें जिसमें छात्रों द्वारा प्रदर्शन की भविष्यवाणी करने के लिए एक कोड निष्पादित किया जाता है -
import pandas as pd
""" Read data file as DataFrame """
df = pd.read_csv("student-mat.csv", sep=";")
""" Import ML helpers """
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.svm import LinearSVC # Support Vector Machine Classifier model
""" Split Data into Training and Testing Sets """
def split_data(X, Y):
return train_test_split(X, Y, test_size=0.2, random_state=17)
""" Confusion Matrix """
def confuse(y_true, y_pred):
cm = confusion_matrix(y_true=y_true, y_pred=y_pred)
# print("\nConfusion Matrix: \n", cm)
fpr(cm)
ffr(cm)
""" False Pass Rate """
def fpr(confusion_matrix):
fp = confusion_matrix[0][1]
tf = confusion_matrix[0][0]
rate = float(fp) / (fp + tf)
print("False Pass Rate: ", rate)
""" False Fail Rate """
def ffr(confusion_matrix):
ff = confusion_matrix[1][0]
tp = confusion_matrix[1][1]
rate = float(ff) / (ff + tp)
print("False Fail Rate: ", rate)
return rate
""" Train Model and Print Score """
def train_and_score(X, y):
X_train, X_test, y_train, y_test = split_data(X, y)
clf = Pipeline([
('reduce_dim', SelectKBest(chi2, k=2)),
('train', LinearSVC(C=100))
])
scores = cross_val_score(clf, X_train, y_train, cv=5, n_jobs=2)
print("Mean Model Accuracy:", np.array(scores).mean())
clf.fit(X_train, y_train)
confuse(y_test, clf.predict(X_test))
print()
""" Main Program """
def main():
print("\nStudent Performance Prediction")
# For each feature, encode to categorical values
class_le = LabelEncoder()
for column in df[["school", "sex", "address", "famsize", "Pstatus", "Mjob",
"Fjob", "reason", "guardian", "schoolsup", "famsup", "paid", "activities",
"nursery", "higher", "internet", "romantic"]].columns:
df[column] = class_le.fit_transform(df[column].values)
# Encode G1, G2, G3 as pass or fail binary values
for i, row in df.iterrows():
if row["G1"] >= 10:
df["G1"][i] = 1
else:
df["G1"][i] = 0
if row["G2"] >= 10:
df["G2"][i] = 1
else:
df["G2"][i] = 0
if row["G3"] >= 10:
df["G3"][i] = 1
else:
df["G3"][i] = 0
# Target values are G3
y = df.pop("G3")
# Feature set is remaining features
X = df
print("\n\nModel Accuracy Knowing G1 & G2 Scores")
print("=====================================")
train_and_score(X, y)
# Remove grade report 2
X.drop(["G2"], axis = 1, inplace=True)
print("\n\nModel Accuracy Knowing Only G1 Score")
print("=====================================")
train_and_score(X, y)
# Remove grade report 1
X.drop(["G1"], axis=1, inplace=True)
print("\n\nModel Accuracy Without Knowing Scores")
print("=====================================")
train_and_score(X, y)
main()
उत्पादन
उपरोक्त कोड आउटपुट दिखाता है जैसा कि नीचे दिखाया गया है
भविष्यवाणी को केवल एक चर के संदर्भ में माना जाता है। एक चर के संदर्भ में, छात्र के प्रदर्शन की भविष्यवाणी नीचे दी गई है -
चंचल कार्यप्रणाली संगठनों को परिवर्तन को अनुकूलित करने, बाजार में प्रतिस्पर्धा करने और उच्च गुणवत्ता वाले उत्पादों के निर्माण में मदद करती है। यह देखा गया है कि ग्राहकों से आवश्यकताओं में परिवर्तन के साथ संगठन चुस्त कार्यप्रणाली के साथ परिपक्व होते हैं। संगठन की चुस्त टीमों के साथ डेटा का संकलन और सिंक्रनाइज़ करना आवश्यक पोर्टफोलियो के अनुसार डेटा को रोल करने में महत्वपूर्ण है।
एक बेहतर योजना बनाएं
मानकीकृत चुस्त प्रदर्शन केवल योजना पर निर्भर करता है। आदेशित डेटा-स्कीमा संगठन की प्रगति की उत्पादकता, गुणवत्ता और जवाबदेही को सशक्त बनाता है। ऐतिहासिक और वास्तविक समय परिदृश्यों के साथ डेटा संगतता का स्तर बनाए रखा जाता है।
डेटा विज्ञान प्रयोग चक्र को समझने के लिए निम्नलिखित आरेख पर विचार करें -
डेटा विज्ञान में उसी के आधार पर एल्गोरिदम के निर्माण के बाद आवश्यकताओं का विश्लेषण शामिल है। एक बार एल्गोरिदम को पर्यावरणीय सेटअप के साथ-साथ डिज़ाइन किया गया है, एक उपयोगकर्ता प्रयोगों का निर्माण कर सकता है और बेहतर विश्लेषण के लिए डेटा एकत्र कर सकता है।
यह विचारधारा चंचल के अंतिम स्प्रिंट की गणना करती है, जिसे "क्रियाएं" कहा जाता है।
Actionsअंतिम स्प्रिंट या चुस्त कार्यप्रणाली के स्तर के लिए सभी अनिवार्य कार्य शामिल हैं। डेटा साइंस चरणों का ट्रैक (जीवन चक्र के संबंध में) कहानी कार्ड के साथ एक्शन आइटम के रूप में बनाए रखा जा सकता है।
भविष्य कहनेवाला विश्लेषण और बड़ा डेटा
योजना का भविष्य पूरी तरह से विश्लेषण से एकत्र किए गए डेटा के साथ डेटा रिपोर्ट के अनुकूलन में निहित है। इसमें बड़े डेटा विश्लेषण के साथ हेरफेर भी शामिल होगा। बड़े डेटा की मदद से, जानकारी के असतत टुकड़ों का विश्लेषण किया जा सकता है, प्रभावी रूप से संगठन के मैट्रिक्स को स्लाइसिंग और डीलीटिंग के साथ। विश्लेषण को हमेशा बेहतर समाधान माना जाता है।
फुर्तीली विकास प्रक्रिया में उपयोग की जाने वाली विभिन्न विधियाँ हैं। इन पद्धतियों का उपयोग डेटा विज्ञान अनुसंधान प्रक्रिया के लिए भी किया जा सकता है।
नीचे दिए गए फ्लोचार्ट अलग-अलग कार्यप्रणालियों को दर्शाता है -
जमघट
सॉफ्टवेयर डेवलपमेंट के संदर्भ में, स्क्रैम का अर्थ है, प्रोजेक्ट की ताकत और कमजोरियों को प्रकट करने के लिए एक छोटी सी टीम और एक विशिष्ट परियोजना के प्रबंधन के साथ काम का प्रबंधन करना।
क्रिस्टल पद्धति
क्रिस्टल मेथडोलॉजी में उत्पाद प्रबंधन और निष्पादन के लिए नवीन तकनीकें शामिल हैं। इस पद्धति के साथ, टीमें अलग-अलग तरीकों से समान कार्यों के बारे में जा सकती हैं। क्रिस्टल परिवार लागू करने के लिए सबसे आसान पद्धति में से एक है।
डायनेमिक सॉफ्टवेयर डेवलपमेंट मेथड
इस वितरण ढांचे का उपयोग मुख्य रूप से सॉफ्टवेयर पद्धति में वर्तमान ज्ञान प्रणाली को लागू करने के लिए किया जाता है।
भविष्य संचालित विकास
इस विकास जीवन चक्र का फोकस परियोजना में शामिल विशेषताएं हैं। यह स्वामित्व के लिए डोमेन ऑब्जेक्ट मॉडलिंग, कोड और फीचर डेवलपमेंट के लिए सबसे अच्छा काम करता है।
लीन सॉफ्टवेयर डेवलपमेंट
चरम कार्यक्रम
चरम प्रोग्रामिंग एक अद्वितीय सॉफ्टवेयर विकास पद्धति है, जो सॉफ्टवेयर की गुणवत्ता में सुधार पर ध्यान केंद्रित करती है। यह तब प्रभावी होता है जब ग्राहक किसी भी परियोजना की कार्यक्षमता के बारे में सुनिश्चित नहीं होता है।
चंचल कार्यप्रणाली डेटा साइंस स्ट्रीम में जड़ ले रही है और इसे महत्वपूर्ण सॉफ्टवेयर पद्धति माना जाता है। चुस्त आत्म-आयोजन के साथ, क्रॉस-फ़ंक्शनल टीमें प्रभावी तरीके से एक साथ काम कर सकती हैं। जैसा कि उल्लेख किया गया है कि चुस्त विकास की छह मुख्य श्रेणियां हैं और उनमें से प्रत्येक को आवश्यकताओं के अनुसार डेटा विज्ञान के साथ प्रवाहित किया जा सकता है। डेटा विज्ञान में सांख्यिकीय अंतर्दृष्टि के लिए एक पुनरावृत्त प्रक्रिया शामिल है। एजाइल डेटा साइंस मॉड्यूल को तोड़ने में मदद करता है और प्रभावी तरीके से पुनरावृत्तियों और स्प्रिंट को संसाधित करने में मदद करता है।
एजाइल डेटा साइंस की प्रक्रिया यह समझने का एक अद्भुत तरीका है कि डेटा साइंस मॉड्यूल को कैसे और क्यों लागू किया जाता है। यह रचनात्मक तरीके से समस्याओं को हल करता है।