बिग डेटा एनालिटिक्स - समस्या परिभाषा

इस ट्यूटोरियल के माध्यम से, हम एक प्रोजेक्ट विकसित करेंगे। इस ट्यूटोरियल में प्रत्येक बाद का अध्याय मिनी-प्रोजेक्ट अनुभाग में बड़ी परियोजना के एक हिस्से से संबंधित है। यह एक लागू ट्यूटोरियल अनुभाग माना जाता है जो वास्तविक दुनिया की समस्या को उजागर करेगा। इस मामले में, हम परियोजना की समस्या की परिभाषा के साथ शुरू करेंगे।

परियोजना विवरण

इस परियोजना का उद्देश्य इनपुट के माध्यम से अपने पाठ्यक्रम vitae (CV) पाठ का उपयोग करके लोगों के प्रति घंटे के वेतन की भविष्यवाणी करने के लिए मशीन लर्निंग मॉडल विकसित करना होगा।

ऊपर परिभाषित रूपरेखा का उपयोग करना, समस्या को परिभाषित करना सरल है। हम X = {x 1 , x 2 ,…, x n } को उपयोगकर्ताओं के CV के रूप में परिभाषित कर सकते हैं , जहां प्रत्येक सुविधा सबसे सरल तरीके से संभव हो सकती है, यह शब्द जितनी बार दिखाई देता है। तब प्रतिक्रिया वास्तविक मूल्य है, हम डॉलर में व्यक्तियों के प्रति घंटे के वेतन की भविष्यवाणी करने की कोशिश कर रहे हैं।

ये दो विचार यह निष्कर्ष निकालने के लिए पर्याप्त हैं कि प्रस्तुत समस्या को एक पर्यवेक्षित प्रतिगमन एल्गोरिथ्म के साथ हल किया जा सकता है।

समस्या की परिभाषा

Problem Definitionसंभवतः बड़े डेटा एनालिटिक्स पाइपलाइन में सबसे जटिल और भारी उपेक्षित चरणों में से एक है। समस्या को परिभाषित करने के लिए एक डेटा उत्पाद हल करेगा, अनुभव अनिवार्य है। अधिकांश डेटा वैज्ञानिक उम्मीदवारों को इस चरण में बहुत कम या कोई अनुभव नहीं है।

अधिकांश बड़ी डेटा समस्याओं को निम्नलिखित तरीकों से वर्गीकृत किया जा सकता है -

  • पर्यवेक्षित वर्गीकरण
  • पर्यवेक्षित प्रतिगमन
  • अशिक्षित शिक्षा
  • रैंक करना सीखना

आइए अब हम इन चार अवधारणाओं के बारे में अधिक जानें।

पर्यवेक्षित वर्गीकरण

X = {x 1 , x 2 , ..., x n } सुविधाओं के एक मैट्रिक्स को देखते हुए हम y = {c 1 , c 2 , ..., c n } के रूप में परिभाषित विभिन्न वर्गों की भविष्यवाणी करने के लिए एक मॉडल M विकसित करते हैं । उदाहरण के लिए: किसी बीमा कंपनी में ग्राहकों के लेन-देन संबंधी डेटा को देखते हुए, एक मॉडल विकसित करना संभव है जो भविष्यवाणी करेगा कि ग्राहक मंथन करेगा या नहीं। उत्तरार्द्ध एक द्विआधारी वर्गीकरण समस्या है, जहां दो वर्ग या लक्ष्य चर हैं: मंथन और मंथन नहीं।

अन्य समस्याओं में एक से अधिक वर्ग की भविष्यवाणी करना शामिल है, हम अंकों की पहचान करने में रुचि रख सकते हैं, इसलिए प्रतिक्रिया वेक्टर को इस प्रकार परिभाषित किया जाएगा: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} , राज्य के अत्याधुनिक मॉडल में आकस्मिक तंत्रिका नेटवर्क होगा और विशेषताओं के मैट्रिक्स को छवि के पिक्सेल के रूप में परिभाषित किया जाएगा।

पर्यवेक्षित प्रतिगमन

इस मामले में, समस्या की परिभाषा पिछले उदाहरण के समान है; अंतर प्रतिक्रिया पर निर्भर करता है। एक प्रतिगमन समस्या में, प्रतिक्रिया y reg,, इसका मतलब है कि प्रतिक्रिया वास्तविक मूल्य है। उदाहरण के लिए, हम एक मॉडल विकसित कर सकते हैं जो व्यक्तियों के प्रति घंटे के वेतन की भविष्यवाणी करने के लिए उनके सीवी को प्रदान करता है।

अनसुचित शिक्षा

प्रबंधन अक्सर नई अंतर्दृष्टि के लिए प्यासा होता है। विपणन विभाग विभिन्न खंडों के लिए उत्पाद विकसित करने के लिए सेगमेंटेशन मॉडल इस अंतर्दृष्टि प्रदान कर सकते हैं। एल्गोरिदम के बारे में सोचने के बजाय एक विभाजन मॉडल विकसित करने के लिए एक अच्छा तरीका उन विशेषताओं का चयन करना है जो वांछित विभाजन के लिए प्रासंगिक हैं।

उदाहरण के लिए, एक दूरसंचार कंपनी में, अपने सेलफोन के उपयोग से ग्राहकों को प्रभावित करना दिलचस्प है। इसमें ऐसी अवहेलना करने वाली सुविधाएँ शामिल होंगी जिनका विभाजन उद्देश्य से कोई लेना-देना नहीं है और इसमें केवल वे ही शामिल हैं। इस स्थिति में, यह एक महीने में उपयोग किए जाने वाले एसएमएस की संख्या, इनबाउंड और आउटबाउंड मिनटों की संख्या आदि के रूप में सुविधाओं का चयन करेगा।

रैंक के लिए सीखना

इस समस्या को एक प्रतिगमन समस्या के रूप में माना जा सकता है, लेकिन इसकी विशेष विशेषताएं हैं और एक अलग उपचार के योग्य हैं। समस्या में उन दस्तावेज़ों का संग्रह शामिल है जिन्हें हम एक क्वेरी द्वारा दिए गए सबसे अधिक प्रासंगिक ऑर्डर को खोजने के लिए चाहते हैं। एक पर्यवेक्षित शिक्षण एल्गोरिथ्म को विकसित करने के लिए, यह एक क्वेरी दिए जाने के क्रम में कितना प्रासंगिक है, यह लेबल करने की आवश्यकता है।

यह ध्यान रखना प्रासंगिक है कि पर्यवेक्षित शिक्षण एल्गोरिथ्म को विकसित करने के लिए, प्रशिक्षण डेटा को लेबल करने की आवश्यकता है। इसका मतलब है कि एक मॉडल को प्रशिक्षित करने के लिए, उदाहरण के लिए, एक छवि से अंकों को पहचानना, हमें उदाहरण के लिए महत्वपूर्ण मात्रा को हाथ से लेबल करना होगा। ऐसी वेब सेवाएँ हैं जो इस प्रक्रिया को गति दे सकती हैं और आमतौर पर इस कार्य के लिए उपयोग की जाती हैं जैसे कि amazon मैकेनिकल टर्क। यह साबित होता है कि अधिक डेटा प्रदान करने पर लर्निंग एल्गोरिदम उनके प्रदर्शन को बेहतर बनाते हैं, इसलिए पर्यवेक्षित शिक्षण में उदाहरणों की एक सभ्य मात्रा को लेबल करना व्यावहारिक रूप से अनिवार्य है।