बिग डेटा एनालिटिक्स - कार्यप्रणाली

कार्यप्रणाली के संदर्भ में, बड़े डेटा एनालिटिक्स प्रयोगात्मक डिजाइन के पारंपरिक सांख्यिकीय दृष्टिकोण से काफी भिन्न होते हैं। एनालिटिक्स की शुरुआत डेटा से होती है। आम तौर पर हम प्रतिक्रिया को समझाने के लिए डेटा को एक तरह से मॉडल करते हैं। इस दृष्टिकोण का उद्देश्य प्रतिक्रिया व्यवहार की भविष्यवाणी करना है या यह समझना है कि इनपुट चर एक प्रतिक्रिया से कैसे संबंधित हैं। आम तौर पर सांख्यिकीय प्रयोगात्मक डिजाइनों में, एक प्रयोग विकसित किया जाता है और डेटा को फिर से प्राप्त किया जाता है। यह एक तरह से डेटा उत्पन्न करने की अनुमति देता है जिसका उपयोग एक सांख्यिकीय मॉडल द्वारा किया जा सकता है, जहां कुछ धारणाएं स्वतंत्रता, सामान्यता और यादृच्छिकता जैसे धारण करती हैं।

बड़े डेटा एनालिटिक्स में, हमें डेटा के साथ प्रस्तुत किया जाता है। हम एक ऐसा प्रयोग नहीं कर सकते हैं जो हमारे पसंदीदा सांख्यिकीय मॉडल को पूरा करे। एनालिटिक्स के बड़े पैमाने पर अनुप्रयोगों में, बड़ी मात्रा में काम (आमतौर पर प्रयास का 80%) की आवश्यकता होती है, केवल डेटा की सफाई के लिए, इसलिए इसका उपयोग मशीन लर्निंग मॉडल द्वारा किया जा सकता है।

हमारे पास वास्तविक बड़े पैमाने पर अनुप्रयोगों का पालन करने के लिए एक अद्वितीय पद्धति नहीं है। व्यवसाय की समस्या को परिभाषित करने के बाद, कार्यप्रणाली का उपयोग करने के लिए एक शोध चरण की आवश्यकता होती है। हालाँकि सामान्य दिशानिर्देशों का उल्लेख किया जाना प्रासंगिक है और लगभग सभी समस्याओं पर लागू होता है।

बड़े डेटा एनालिटिक्स में सबसे महत्वपूर्ण कार्यों में से एक है statistical modeling, जिसका अर्थ है पर्यवेक्षित और असुरक्षित वर्गीकरण या प्रतिगमन समस्याएं। एक बार जब डेटा को साफ और प्रीप्रोसेस किया जाता है, तो मॉडलिंग के लिए उपलब्ध है, उचित हानि मैट्रिक्स के साथ विभिन्न मॉडलों के मूल्यांकन में ध्यान रखा जाना चाहिए और फिर मॉडल लागू होने के बाद, आगे के मूल्यांकन और परिणामों की रिपोर्ट की जानी चाहिए। भविष्य कहनेवाला मॉडलिंग में एक आम नुकसान सिर्फ मॉडल को लागू करना और उसके प्रदर्शन को मापना नहीं है।