बिग डेटा एनालिटिक्स - डेटा लाइफ साइकिल
पारंपरिक डेटा खनन जीवन चक्र
संगठन द्वारा आवश्यक कार्य को व्यवस्थित करने और बिग डेटा से स्पष्ट अंतर्दृष्टि प्रदान करने के लिए एक रूपरेखा प्रदान करने के लिए, इसे विभिन्न चरणों के साथ एक चक्र के रूप में सोचना उपयोगी है। यह किसी भी तरह से रैखिक नहीं है, जिसका अर्थ है कि सभी चरण एक दूसरे से संबंधित हैं। इस चक्र में अधिक पारंपरिक डेटा खनन चक्र के साथ सतही समानताएं हैं जैसा कि वर्णित हैCRISP methodology।
CRISP-DM कार्यप्रणाली
CRISP-DM methodologyजो डेटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस के लिए खड़ा है, एक ऐसा चक्र है जो आमतौर पर उपयोग किए जाने वाले दृष्टिकोणों का वर्णन करता है जो डेटा खनन विशेषज्ञ पारंपरिक बीआई खनन में समस्याओं से निपटने के लिए उपयोग करते हैं। यह अभी भी पारंपरिक बीआई डेटा खनन टीमों में उपयोग किया जा रहा है।
निम्नलिखित दृष्टांत पर एक नज़र डालें। यह चक्र के प्रमुख चरणों को दिखाता है जैसा कि CRISP-DM कार्यप्रणाली द्वारा वर्णित है और वे किस प्रकार परस्पर संबंधित हैं।
1996 में CRISP-DM की परिकल्पना की गई थी और अगले साल, यह ESPRIT फंडिंग पहल के तहत एक यूरोपीय संघ परियोजना के रूप में चल रही थी। इस परियोजना का नेतृत्व पांच कंपनियों ने किया था: एसपीएसएस, टेराडाटा, डेमलर एजी, एनसीआर कॉर्पोरेशन और ओएचआरए (एक बीमा कंपनी)। परियोजना को अंततः SPSS में शामिल किया गया था। एक डेटा माइनिंग प्रोजेक्ट को कैसे निर्दिष्ट किया जाना चाहिए, इसकी कार्यप्रणाली अत्यंत विस्तृत है।
आइए अब हम CRISP-DM जीवन चक्र में शामिल प्रत्येक चरण पर थोड़ा और जानें -
Business Understanding- यह प्रारंभिक चरण एक व्यावसायिक दृष्टिकोण से परियोजना के उद्देश्यों और आवश्यकताओं को समझने पर केंद्रित है, और फिर इस ज्ञान को डेटा खनन समस्या की परिभाषा में परिवर्तित कर रहा है। एक प्रारंभिक योजना उद्देश्यों को प्राप्त करने के लिए डिज़ाइन की गई है। एक निर्णय मॉडल, विशेष रूप से निर्णय मॉडल और अंकन मानक का उपयोग करके निर्मित एक का उपयोग किया जा सकता है।
Data Understanding - डेटा समझ का चरण एक प्रारंभिक डेटा संग्रह के साथ शुरू होता है और डेटा से परिचित होने के लिए गतिविधियों के साथ आगे बढ़ता है, डेटा की गुणवत्ता की समस्याओं की पहचान करने के लिए, डेटा में पहली अंतर्दृष्टि की खोज करने के लिए, या छिपी जानकारी के लिए परिकल्पना बनाने के लिए दिलचस्प सबसेट का पता लगाने के लिए।
Data Preparation- डेटा तैयार करने का चरण अंतिम कच्चे डेटा (प्रारंभिक कच्चे डेटा से मॉडलिंग टूल (डेटा) में खिलाया जाएगा) के निर्माण के लिए सभी गतिविधियों को शामिल करता है। डेटा तैयारी कार्य कई बार किए जाने की संभावना है, और किसी भी निर्धारित क्रम में नहीं। कार्य में टेबल, रिकॉर्ड और विशेषता चयन के साथ-साथ मॉडलिंग टूल के लिए डेटा के रूपांतरण और सफाई शामिल है।
Modeling- इस चरण में, विभिन्न मॉडलिंग तकनीकों को चुना जाता है और लागू किया जाता है और उनके मापदंडों को इष्टतम मूल्यों पर कैलिब्रेट किया जाता है। आमतौर पर, समान डेटा खनन समस्या प्रकार के लिए कई तकनीकें होती हैं। कुछ तकनीकों में डेटा के रूप में विशिष्ट आवश्यकताएं हैं। इसलिए, अक्सर डेटा तैयारी चरण पर वापस जाने की आवश्यकता होती है।
Evaluation- परियोजना में इस स्तर पर, आपने एक मॉडल (या मॉडल) बनाया है जो डेटा विश्लेषण के दृष्टिकोण से उच्च गुणवत्ता वाला प्रतीत होता है। मॉडल की अंतिम तैनाती के लिए आगे बढ़ने से पहले, मॉडल का अच्छी तरह से मूल्यांकन करना और मॉडल के निर्माण के लिए निष्पादित चरणों की समीक्षा करना महत्वपूर्ण है, यह सुनिश्चित करने के लिए कि यह व्यावसायिक उद्देश्यों को ठीक से प्राप्त करता है।
एक महत्वपूर्ण उद्देश्य यह निर्धारित करना है कि क्या कोई महत्वपूर्ण व्यवसाय मुद्दा है जिसे पर्याप्त रूप से नहीं माना गया है। इस चरण के अंत में, डेटा खनन परिणामों के उपयोग पर एक निर्णय पर पहुंचा जाना चाहिए।
Deployment- मॉडल का निर्माण आमतौर पर परियोजना का अंत नहीं है। यहां तक कि अगर मॉडल का उद्देश्य डेटा के ज्ञान को बढ़ाना है, तो प्राप्त ज्ञान को ग्राहक के लिए उपयोगी तरीके से व्यवस्थित और प्रस्तुत करने की आवश्यकता होगी।
आवश्यकताओं के आधार पर, परिनियोजन चरण एक रिपोर्ट उत्पन्न करने के रूप में या एक दोहराए जाने योग्य डेटा स्कोरिंग (जैसे खंड आवंटन) या डेटा खनन प्रक्रिया को लागू करने के रूप में जटिल हो सकता है।
कई मामलों में, यह ग्राहक होगा, डेटा विश्लेषक नहीं, जो परिनियोजन चरणों को पूरा करेगा। भले ही विश्लेषक मॉडल को चित्रित करता है, लेकिन ग्राहक के लिए उन क्रियाओं को समझना महत्वपूर्ण है, जो वास्तव में बनाए गए मॉडल का उपयोग करने के लिए किए जाने की आवश्यकता होगी।
SEMMA पद्धति
SEMMA डेटा माइनिंग मॉडलिंग के लिए SAS द्वारा विकसित एक अन्य कार्यप्रणाली है। इसका अर्थ हैSपर्याप्त, Eएक्सप्लोर, Modify, Mओडेल, और Asses। यहाँ इसके चरणों का संक्षिप्त विवरण दिया गया है -
Sample- प्रक्रिया डेटा सैंपलिंग से शुरू होती है, जैसे, मॉडलिंग के लिए डेटासेट का चयन करना। डेटासेट पुनः प्राप्त करने के लिए पर्याप्त जानकारी रखने के लिए पर्याप्त बड़ा होना चाहिए, फिर भी कुशलतापूर्वक उपयोग करने के लिए पर्याप्त छोटा है। यह चरण डेटा विभाजन से भी संबंधित है।
Explore - यह चरण डेटा विज़ुअलाइज़ेशन की सहायता से, चरों के बीच प्रत्याशित और अप्रत्याशित संबंधों की खोज करके और असामान्यताओं के द्वारा डेटा की समझ को कवर करता है।
Modify - संशोधित चरण में डेटा मॉडलिंग के लिए तैयारी में चर का चयन, निर्माण और परिवर्तन करने के तरीके शामिल हैं।
Model - मॉडल चरण में, मॉडल बनाने के लिए तैयार चर पर विभिन्न मॉडलिंग (डेटा माइनिंग) तकनीकों को लागू करने पर ध्यान केंद्रित किया गया है जो संभवतः वांछित परिणाम प्रदान करते हैं।
Assess - मॉडलिंग परिणामों के मूल्यांकन से निर्मित मॉडलों की विश्वसनीयता और उपयोगिता का पता चलता है।
CRISM-DM और SEMMA के बीच मुख्य अंतर यह है कि SEMMA मॉडलिंग पहलू पर ध्यान केंद्रित करता है, जबकि CRISP-DM मॉडलिंग से पहले चक्र के चरणों को अधिक महत्व देता है जैसे कि डेटा की समस्या को हल करने के लिए, डेटा को समझने और समझने के लिए। उदाहरण के लिए, मशीन लर्निंग एल्गोरिदम के रूप में प्रयोग किया जाता है।
बिग डेटा लाइफ साइकिल
आज के बड़े डेटा संदर्भ में, पिछले दृष्टिकोण या तो अधूरे हैं या उप-रूपी हैं। उदाहरण के लिए, SEMMA पद्धति पूरी तरह से डेटा संग्रह और विभिन्न डेटा स्रोतों के प्रीप्रोसेसिंग की उपेक्षा करती है। ये चरण सामान्य रूप से एक सफल बड़े डेटा प्रोजेक्ट में अधिकांश कार्य का गठन करते हैं।
एक बड़ा डेटा एनालिटिक्स चक्र निम्नलिखित चरण द्वारा वर्णित किया जा सकता है -
- व्यावसायिक समस्या परिभाषा
- Research
- मानव संसाधन मूल्यांकन
- आंकड़ा अधिग्रहण
- डाटा मुंगिंग
- आधार सामग्री भंडारण
- अन्वेषणात्मक डेटा विश्लेषण
- मॉडलिंग और मूल्यांकन के लिए डेटा तैयारी
- Modeling
- Implementation
इस खंड में, हम बड़े डेटा जीवन चक्र के इन चरणों में से प्रत्येक पर कुछ प्रकाश फेंकेंगे।
व्यावसायिक समस्या परिभाषा
यह पारंपरिक बीआई और बड़े डेटा एनालिटिक्स जीवन चक्र में एक सामान्य बिंदु है। आम तौर पर यह समस्या को परिभाषित करने और एक संगठन के लिए कितना संभावित लाभ हो सकता है इसका सही मूल्यांकन करने के लिए एक बड़ी डेटा परियोजना का एक गैर-तुच्छ चरण है। यह उल्लेख करना स्पष्ट प्रतीत होता है, लेकिन इसका मूल्यांकन किया जाना चाहिए कि परियोजना के अपेक्षित लाभ और लागत क्या हैं।
अनुसंधान
विश्लेषण करें कि अन्य कंपनियों ने एक ही स्थिति में क्या किया है। इसमें उन समाधानों की तलाश शामिल है जो आपकी कंपनी के लिए उचित हैं, हालांकि इसमें उन संसाधनों और आवश्यकताओं के लिए अन्य समाधानों को शामिल करना शामिल है जो आपकी कंपनी के पास हैं। इस चरण में, भविष्य के चरणों के लिए एक कार्यप्रणाली को परिभाषित किया जाना चाहिए।
मानव संसाधन मूल्यांकन
एक बार समस्या को परिभाषित करने के बाद, यह विश्लेषण करना जारी रखना उचित है कि क्या वर्तमान कर्मचारी परियोजना को सफलतापूर्वक पूरा करने में सक्षम है। पारंपरिक बीआई टीमें सभी चरणों में एक इष्टतम समाधान देने में सक्षम नहीं हो सकती हैं, इसलिए परियोजना शुरू करने से पहले इस पर विचार किया जाना चाहिए कि क्या परियोजना का एक हिस्सा आउटसोर्स करने या अधिक लोगों को नियुक्त करने की आवश्यकता है।
आंकड़ा अधिग्रहण
यह खंड एक बड़े डेटा जीवन चक्र में महत्वपूर्ण है; यह परिभाषित करता है कि परिणामी डेटा उत्पाद को वितरित करने के लिए किस प्रकार के प्रोफाइल की आवश्यकता होगी। डेटा एकत्र करना प्रक्रिया का एक गैर-तुच्छ चरण है; इसमें आम तौर पर विभिन्न स्रोतों से असंरचित डेटा एकत्र करना शामिल है। एक उदाहरण देने के लिए, यह एक वेबसाइट से समीक्षा प्राप्त करने के लिए क्रॉलर लिखना शामिल कर सकता है। इसमें पाठ के साथ काम करना शामिल है, शायद विभिन्न भाषाओं में आम तौर पर समय की एक महत्वपूर्ण राशि को पूरा करने की आवश्यकता होती है।
डाटा मुंगिंग
एक बार डेटा पुनर्प्राप्त करने के बाद, उदाहरण के लिए, वेब से, इसे एक आसान-उपयोग प्रारूप में संग्रहीत किया जाना चाहिए। समीक्षाओं के उदाहरणों के साथ जारी रखने के लिए, मान लें कि डेटा विभिन्न साइटों से पुनर्प्राप्त किया गया है जहां प्रत्येक में डेटा का एक अलग प्रदर्शन होता है।
मान लीजिए कि एक डेटा स्रोत सितारों में रेटिंग के संदर्भ में समीक्षा देता है, इसलिए प्रतिक्रिया चर के लिए मानचित्रण के रूप में इसे पढ़ना संभव है y ∈ {1, 2, 3, 4, 5}। एक अन्य डेटा स्रोत दो एरो सिस्टम का उपयोग करके समीक्षा करता है, एक अप वोटिंग के लिए और दूसरा डाउन वोटिंग के लिए। यह फॉर्म का एक प्रतिक्रिया चर होगाy ∈ {positive, negative}।
दोनों डेटा स्रोतों को संयोजित करने के लिए, इन दो प्रतिक्रिया अभ्यावेदन को समतुल्य बनाने के लिए एक निर्णय लेना होगा। इसमें पहले डेटा स्रोत प्रतिक्रिया प्रतिनिधित्व को दूसरे रूप में परिवर्तित करना शामिल हो सकता है, एक स्टार को नकारात्मक और पांच सितारों को सकारात्मक माना जा सकता है। इस प्रक्रिया में अक्सर अच्छी गुणवत्ता के साथ बड़े समय के आवंटन की आवश्यकता होती है।
आधार सामग्री भंडारण
डेटा संसाधित होने के बाद, इसे कभी-कभी किसी डेटाबेस में संग्रहीत करने की आवश्यकता होती है। बिग डेटा टेक्नोलॉजीज इस बिंदु के बारे में बहुत सारे विकल्प प्रदान करते हैं। सबसे आम विकल्प भंडारण के लिए Hadoop फाइल सिस्टम का उपयोग करना है जो उपयोगकर्ताओं को SQL का एक सीमित संस्करण प्रदान करता है, जिसे HIVE क्वेरी भाषा के रूप में जाना जाता है। यह अधिकांश विश्लेषिकी कार्य को उसी तरह से करने की अनुमति देता है जैसे कि उपयोगकर्ता के दृष्टिकोण से पारंपरिक बीआई डेटा वेयरहाउस में किया जाएगा। माना जाने वाला अन्य स्टोरेज विकल्प MongoDB, Redis और SPARK हैं।
चक्र का यह चरण विभिन्न संसाधनों को लागू करने की उनकी क्षमताओं के संदर्भ में मानव संसाधन ज्ञान से संबंधित है। पारंपरिक डेटा वेयरहाउस के संशोधित संस्करण अभी भी बड़े पैमाने पर अनुप्रयोगों में उपयोग किए जा रहे हैं। उदाहरण के लिए, टेराडाटा और आईबीएम SQL डेटाबेस प्रदान करते हैं जो डेटा के टेराबाइट्स को संभाल सकते हैं; पोस्टग्रेएसक्यूएल और MySQL जैसे ओपन सोर्स समाधान अभी भी बड़े पैमाने पर अनुप्रयोगों के लिए उपयोग किए जा रहे हैं।
भले ही क्लाइंट की तरफ से बैकग्राउंड में अलग-अलग स्टोरेज काम करने के तरीके में अंतर हो, लेकिन ज्यादातर समाधान SQL API प्रदान करते हैं। इसलिए SQL की अच्छी समझ होना अभी भी बड़े डेटा एनालिटिक्स के लिए एक महत्वपूर्ण कौशल है।
इस चरण में एक प्राथमिकता सबसे महत्वपूर्ण विषय लगती है, व्यवहार में, यह सच नहीं है। यह एक आवश्यक चरण भी नहीं है। एक बड़े डेटा समाधान को लागू करना संभव है जो वास्तविक समय के डेटा के साथ काम कर रहा है, इसलिए इस मामले में, हमें केवल मॉडल को विकसित करने और फिर इसे वास्तविक समय में लागू करने के लिए डेटा इकट्ठा करने की आवश्यकता है। इसलिए डेटा को औपचारिक रूप से संग्रहीत करने की आवश्यकता नहीं होगी।
अन्वेषणात्मक डेटा विश्लेषण
एक बार जब डेटा को साफ कर लिया जाता है और उसे इस तरह से संग्रहित किया जाता है कि अंतर्दृष्टि को इससे पुनर्प्राप्त किया जा सकता है, तो डेटा अन्वेषण चरण अनिवार्य है। इस चरण का उद्देश्य डेटा को समझना है, यह आमतौर पर सांख्यिकीय तकनीकों के साथ किया जाता है और डेटा की साजिश भी करता है। यह मूल्यांकन करने के लिए एक अच्छा चरण है कि क्या समस्या की परिभाषा समझ में आती है या संभव है।
मॉडलिंग और मूल्यांकन के लिए डेटा तैयारी
इस चरण में पहले से प्राप्त किए गए साफ किए गए डेटा को फिर से आकार देना और लापता मानों के प्रतिगमन, बाहरी पहचान, सामान्यीकरण, सुविधा निष्कर्षण और सुविधा चयन के लिए सांख्यिकीय प्रीप्रोसेसिंग का उपयोग करना शामिल है।
मोडलिंग
पूर्व चरण को प्रशिक्षण और परीक्षण के लिए कई डेटासेट का उत्पादन करना चाहिए, उदाहरण के लिए, एक पूर्वानुमान मॉडल। इस चरण में विभिन्न मॉडलों की कोशिश करना और हाथ में व्यावसायिक समस्या को हल करने के लिए तत्पर रहना शामिल है। व्यवहार में, यह आमतौर पर वांछित है कि मॉडल व्यवसाय में कुछ अंतर्दृष्टि देगा। अंत में, मॉडल का सबसे अच्छा मॉडल या संयोजन एक बाएं-आउट डेटासेट पर इसके प्रदर्शन का मूल्यांकन करता है।
कार्यान्वयन
इस चरण में, विकसित किए गए डेटा उत्पाद को कंपनी के डेटा पाइपलाइन में लागू किया जाता है। इसमें एक सत्यापन योजना स्थापित करना शामिल है, जबकि डेटा उत्पाद काम कर रहा है, ताकि इसके प्रदर्शन को ट्रैक किया जा सके। उदाहरण के लिए, एक पूर्वानुमान मॉडल को लागू करने के मामले में, इस चरण में मॉडल को नए डेटा पर लागू करना और प्रतिक्रिया उपलब्ध होने के बाद, मॉडल का मूल्यांकन करना शामिल होगा।