रिज्यूमे में आपको कभी भी कागल डेटासेट का उपयोग क्यों नहीं करना चाहिए!

Nov 26 2022

कागल डेटासेट अत्यधिक उपयोग किए जाते हैं और यथार्थवादी नहीं होते हैं! जबकि शुरुआती डेटा वैज्ञानिकों के लिए शुरू करने के लिए कागल एक बेहतरीन जगह हो सकती है, आपको डेटासेट का उपयोग फिर से शुरू करने में नहीं करना चाहिए। कटु सत्य यह है कि साक्षात्कारकर्ताओं को टाइटैनिक डेटासेट की मॉडलिंग के बारे में आपकी परवाह नहीं है।

कागल डेटासेट अत्यधिक उपयोग किए जाते हैं और यथार्थवादी नहीं होते हैं!

लेखक द्वारा कागले प्रतियोगिता होमपेज, फोटो

जबकि शुरुआती डेटा वैज्ञानिकों के लिए शुरू करने के लिए कागल एक बेहतरीन जगह हो सकती है, आपको डेटासेट का उपयोग फिर से शुरू करने में नहीं करना चाहिए। कटु सत्य यह है कि साक्षात्कारकर्ताओं को टाइटैनिक डेटासेट की मॉडलिंग के बारे में आपकी परवाह नहीं है।

साक्षात्कारकर्ता कुछ विशेष की तलाश में हैं, कुछ ऐसा जो आपको भीड़ से अलग करता है। कागल आपको उस भीड़ में शामिल करता है क्योंकि हर कोई कागल डेटासेट का उपयोग करता है!

कागल डेटासेट के साथ एक और समस्या यह है कि अधिकांश डेटा आपके लिए पहले ही साफ़ कर दिया गया है! वास्तविक जीवन के कार्य अनुभव की तुलना में यह बहुत बड़ा अंतर है। वास्तविक दुनिया की सेटिंग में, आपको डेटा को साफ़ करने और वास्तव में यह सुनिश्चित करने की आवश्यकता होगी कि डेटा अंतर्दृष्टि की ओर ले जाएगा। कागल डेटासेट के साथ, आप पहले से ही जानते हैं कि मॉडल सीखेगा (अधिकांश डेटासेट कम से कम)।

अच्छा, आप खुद को भीड़ से अलग कैसे करते हैं?

जबकि खुद को भीड़ से अलग करने के कई तरीके हैं, अपना खुद का डेटासेट बनाकर सबसे अच्छा तरीका है। अपना स्वयं का डेटासेट बनाने के लिए, आप विभिन्न तरीकों का उपयोग कर सकते हैं जैसे वेब-स्क्रैपिंग, अपने स्वयं के डेटा का उपयोग करके, रीयल-टाइम डेटा, एपीआई से डेटा, आदि। मॉडल जो चेहरों को वर्गीकृत करता है।

GANs का उपयोग करके अपना खुद का डेटासेट बनाने या भीड़ से अलग दिखने का एक और तरीका है। इस प्रकार के मॉडल अन्य डेटा का उपयोग करके डेटा उत्पन्न कर सकते हैं। उदाहरण के लिए, यदि आपके पास समस्या को हल करने के लिए पर्याप्त डेटा नहीं है, तो आप अधिक डेटा उत्पन्न करने के लिए GAN का उपयोग करने का प्रयास कर सकते हैं। फिर मॉडल को नए डेटा पर फिट करने के बाद आप देख सकते हैं कि क्या परिणाम बेहतर हुए हैं।

भीड़ से अलग दिखने का एक अन्य तरीका उन डेटासेट का उपयोग करना है जो मॉडलिंग के लिए तैयार नहीं हैं। इसका मतलब यह है कि डेटा साफ़ नहीं किया गया है, जिसका अर्थ है कि डेटा को साफ़ करने के लिए आपको कई तरह की तकनीकों का उपयोग करना होगा।

अपना खुद का डेटासेट बनाने से डेटा तैयार करने और डेटा एक्सप्लोर करने के बारे में आपकी जानकारी बढ़ेगी। यह समझने का एक सबसे अच्छा तरीका है कि आप भीड़ से अलग हैं या नहीं, ऐसे सवाल ढूंढना है जिनका डेटा जवाब दे सके। आखिरकार, अधिकांश कंपनियां डेटा वैज्ञानिकों को सार्थक अंतर्दृष्टि खोजने के लिए नियुक्त करती हैं जो उन्हें अधिक पैसा बनाने में मदद करती हैं।

एक प्रोजेक्ट जिस पर मैं काम कर रहा हूं वह एक मिनी सेल्फ ड्राइविंग कार है। यह डीप-लर्निंग मॉडल को प्रशिक्षित करने के लिए रीयल-टाइम डेटा का उपयोग करेगा। यह एक अनूठी परियोजना का एक उदाहरण है जिससे साक्षात्कारकर्ताओं को दिलचस्पी होगी।

वास्तविक तरीका आपको कागल का उपयोग करना चाहिए

हालांकि कागल साक्षात्कारकर्ताओं को प्रभावित नहीं कर सकता है, लेकिन आप डेटासेट मॉडलिंग से जो कौशल सीखते हैं, वह होगा। डेटासेट को मॉडल करने का तरीका सीखने के लिए कागले अब तक का सबसे अच्छा तरीका है क्योंकि आपके पास इतने सारे तक पहुंच है। कागल का सही इस्तेमाल करने के लिए आपको खुद से पूछना चाहिए कि आपकी कमजोरियां क्या हैं। कमजोरी मिलने के बाद, एक डेटासेट खोजें जो आपकी कमजोरी को सुधारने में आपकी मदद कर सकता है।

उदाहरण के लिए, मान लीजिए कि मैं GAN की बेहतर समझ हासिल करना चाहता हूं और उनके साथ कोडिंग का और अनुभव प्राप्त करना चाहता हूं। सबसे पहले मैं MNIST जैसा एक साधारण डेटासेट ढूंढूंगा और इसे GAN के साथ मॉडल करूंगा। तब से मैं कठिन डेटासेट तक अपना रास्ता बनाऊंगा जब तक कि मैं सफलतापूर्वक अपने लक्ष्य तक नहीं पहुंच जाता, इस उदाहरण में, यह जीएएन को समझना था और उनका उपयोग कैसे करना था।

अपनी कमजोरी में सुधार करने के बाद, मैं इसे अपने द्वारा बनाए गए डेटासेट या उपयोग करने में कठिन डेटासेट पर लागू कर सकता हूं।

कागल उपयोगिता के आधार पर डेटासेट को भी रेट करता है, एक तरह से आप अपने डेटा विश्लेषण में सुधार कर सकते हैं और EDA कौशल एक छोटे उपयोगिता स्कोर के साथ डेटासेट ढूंढकर है।