2023 में कंप्यूटर विजन के साथ शुरुआत कैसे करें?
2023 में कंप्यूटर विज़न इंजीनियर या शोधकर्ता बनने के लिए शून्य से गैर-शून्य रोडमैप। जानें कि उद्योग या शिक्षा में आने के लिए वास्तविक दुनिया की परियोजनाओं में क्या सीखना है और सीखे गए कौशल को कैसे लागू करना है।
प्रेरणा
कंप्यूटर विज़न (CompVis) आर्टिफिशियल इंटेलिजेंस (AI) का एक क्षेत्र है जिसमें छवियों और वीडियो को समझने और समझने के लिए कंप्यूटर को प्रशिक्षण देना शामिल है । CompVis के व्यावहारिक अनुप्रयोग औद्योगिक विनिर्माण रोबोट, स्व-ड्राइविंग कारों और वीडियो निगरानी से लेकर मेडिकल इमेजिंग और संवर्धित वास्तविकता तक फैले हुए हैं। कई मामलों में, CompVis कार्यों को स्वचालित कर सकता है और हमारे निएंडरथल के लिए समय और प्रयास बचाता है , जो इसे व्यावहारिक अनुप्रयोगों के लिए उपयोगी बनाता है। इसके अतिरिक्त, कुछ मामलों में, यह मनुष्यों से भी बेहतर प्रदर्शन करता है, जिससे कई उद्योगों के लिए CompVis एक महत्वपूर्ण उपकरण बन जाता है। [1]
इस लेख में, मैं एक रोडमैप साझा करूँगा जिसका उपयोग आप CompVis के साथ आरंभ करने के लिए कर सकते हैं, या तो उद्योग या शिक्षा में। सबसे पहले, मैं कुछ मुफ़्त और सार्वजनिक रूप से उपलब्ध सीखने के संसाधनों को साझा करूँगा। फिर मैं उन प्लेटफॉर्मों के बारे में बात करूंगा जहां आप अपना पोर्टफोलियो बनाने के लिए सीखे गए कौशलों को लागू कर सकते हैं। यदि आप नए हैं या आपके पास कुछ अनुभव है, तो यह गाइड संभावित रूप से आपको इस बेहद रोमांचक और तेजी से विकसित हो रहे क्षेत्र में और भी बेहतर बना सकती है!
यह आलेख निम्न प्रकार से संगठित किया गया है:
- सीखने के संसाधन
- ऑनलाइन प्रतियोगिताएं
- उद्योग और अनुसंधान सहयोग
सीखने के संसाधन
इस खंड में, मैं तीन संसाधनों के बारे में बात करूंगा जिन्हें आपको सिद्धांत की अच्छी समझ प्राप्त करने के साथ-साथ CompVis सिस्टम बनाने के पीछे अभ्यास करने पर विचार करना चाहिए। यह कॉम्पविस प्रैक्टिशनर के रूप में आपकी गहराई को बढ़ाने के लिए है। अगले दो वे होंगे जिन्हें आपको CompVis में विभिन्न कार्यों और सीखने के प्रतिमानों के बारे में जानने के लिए जाना चाहिए। यह आपकी चौड़ाई बढ़ाने के लिए है।
डीप लर्निंग स्पेशलाइजेशन में कुल पांच पाठ्यक्रम शामिल हैं जो आपको कॉम्पविस, प्राकृतिक भाषा प्रसंस्करण आदि पर लागू गहन शिक्षा की नींव सिखाएंगे। इसमें गहन शिक्षण मॉडल बनाने, प्रशिक्षित करने और परीक्षण करने के लिए सैद्धांतिक और व्यावहारिक दोनों अवधारणाएं शामिल हैं। आप पाठ्यक्रम असाइनमेंट के माध्यम से अपने स्वयं के मॉडल बनाने और प्रशिक्षित करने में सक्षम होंगे। ईमानदारी से सभी पांच पाठ्यक्रमों को पूरा करने के लिए अपना समय लें!
CS231n: कंप्यूटर विज़न के लिए डीप लर्निंग एंड-टू-एंड मॉडल सीखने पर ध्यान देने के साथ छवि वर्गीकरण आर्किटेक्चर के विवरण में गहरा गोता लगाता है। इसमें हैंड्स-ऑन असाइनमेंट शामिल हैं जो आपको अपनी पसंद की वास्तविक दुनिया की समस्या पर अपने कॉम्पविस मॉडल को लागू करने और प्रशिक्षित करने देते हैं। यह प्रशिक्षण के लिए व्यावहारिक इंजीनियरिंग टिप्स और ट्रिक्स और डीप लर्निंग मॉडल को फाइन-ट्यूनिंग के लिए विवरण भी प्रदान करता है।
PyTorch के साथ कंप्यूटर विजन में डीप लर्निंग आपको अपने स्वयं के डेटासेट पर छवि वर्गीकरण और सिमेंटिक सेगमेंटेशन एल्गोरिदम के प्रशिक्षण और परीक्षण का एक त्वरित और आसान पूर्वाभ्यास देता है। अंत में, यह आपको दिखाता है कि एक सरल वेब इंटरफ़ेस कैसे बनाया और चलाया जाए ताकि कोई भी आपके नए प्रशिक्षित मॉडल का उपयोग कर सके। ( बेशर्म आत्म प्रचार! )
कंप्यूटर विजन के लिए डीप लर्निंग, जस्टिन जॉनसन तंत्रिका नेटवर्क को लागू करने, प्रशिक्षण देने और डीबग करने को कवर करता है और CompVis में अत्याधुनिक शोध की गहन समझ प्रदान करता है। यह CompVis कार्यों जैसे ऑब्जेक्ट डिटेक्शन, सिमेंटिक सेगमेंटेशन, 3D विज़न और जनरेटिव मॉडल के साथ-साथ रीइन्फोर्समेंट लर्निंग को कवर करता है।
कंप्यूटर विजन में डीप लर्निंग, प्रोफेसर कोस्टा डेरपनिस एक और हालिया कोर्स है जिसमें एक्शन रिकॉग्निशन, विजन और लैंग्वेज, ग्राफ न्यूरल नेटवर्क जैसे कई विषय शामिल हैं। यह मीट्रिक सीखने और स्व-पर्यवेक्षित शिक्षा जैसे सीखने के प्रतिमानों को भी शामिल करता है।
सीखने के कुछ अन्य संसाधन जो देखने में उपयोगी हो सकते हैं:
- SOTA कंप्यूटर विज़न मॉडल का उपयोग करने पर रोबोफ्लो ट्यूटोरियल
- हगिंग फेस टास्क
- हगिंग फेस ट्रांसफॉर्मर ट्यूटोरियल
ऑनलाइन प्रतियोगिताएं
इसके बाद, मैं कुछ पिछली प्रतियोगिताओं/चुनौतियों की गणना करूँगा जिन्हें आप स्वयं कर सकते हैं और ऊपर उल्लिखित पाठ्यक्रमों से अपने सीखे हुए कौशलों को लागू कर सकते हैं। यह आपको एक विचार प्राप्त करने में भी मदद करेगा कि ऑनलाइन प्रतियोगिताएं कैसे काम करती हैं (उदाहरण के लिए, डेटा प्राप्त करें , मॉडल को प्रशिक्षित करें , परीक्षण और विश्लेषण करें , परिणाम सबमिट करें, और पुनरावृति करें )। फिर, मैं उन प्रतियोगिता प्लेटफार्मों के नामों का उल्लेख करूँगा जो लोकप्रिय कॉम्पविस सम्मेलनों से चुनौतियों की मेजबानी भी करते हैं जहाँ आप संभवतः अपनी पहली ऑनलाइन प्रतियोगिता शुरू कर सकते हैं!
कुत्ते बनाम बिल्लियाँ : एक छवि वर्गीकरण कार्य जहाँ आप छवियों से कुत्तों और बिल्लियों की भविष्यवाणी करने के लिए एक मॉडल बनाएंगे।
टीपीयू के साथ फूलों का वर्गीकरण : कुत्तों बनाम बिल्लियों के समान कार्य लेकिन कई वर्ग। इसे बहु-श्रेणी छवि वर्गीकरण के रूप में जाना जाता है । यहां आप 100 से अधिक प्रकार के फूलों को वर्गीकृत करने के लिए एक मॉडल बनाएंगे। जीपीयू का उपयोग करने के बजाय, आप टीपीयू के उपयोग से परिचित होंगे।
कारवाना इमेज मास्किंग चैलेंज : एक सिमेंटिक सेगमेंटेशन टास्क जहां लक्ष्य कार से फोटो स्टूडियो बैकग्राउंड को हटाने के लिए एक मॉडल विकसित करना है। यह छवि वर्गीकरण के समान है लेकिन एक पिक्सेल स्तर पर जहां प्रत्येक पिक्सेल को एक वर्ग लेबल दिया जाता है जो वांछित वस्तु (यानी, कार) के अंतिम आउटपुट मास्क की ओर जाता है।
ग्लोबल व्हीट डिटेक्शन : एक ऑब्जेक्ट डिटेक्शन प्रॉब्लम जहां लक्ष्य गेहूं के पौधों की बाहरी छवियों से गेहूं के शीर्ष पर स्थानीयकरण (जैसे, बाउंडिंग बॉक्स बनाना) के लिए एक मॉडल बनाना है।
आरएसएनए एसटीआर पल्मोनरी एम्बोलिज्म डिटेक्शन : पिछला वर्गीकरण कार्य 2डी छवियों से निपटता है; इस चुनौती में, लक्ष्य चेस्ट सीटी स्कैन से असामान्यताओं का पता लगाना और उन्हें वर्गीकृत करना है जो कि 3डी इमेज हैं। यह 3डी छवि वर्गीकरण है ।
एमएल प्रतियोगिता मंच : उपरोक्त प्रतियोगिताओं कागले पर आयोजित की जाती हैं, जो सबसे लोकप्रिय प्रतियोगिता मंच है। ऐसे अन्य प्लेटफ़ॉर्म मौजूद हैं जहाँ वे विभिन्न प्रतियोगिताओं की मेजबानी कर सकते हैं जिनमें आप भाग ले सकते हैं। मैं कुछ पर जाऊँगा:
- ग्रैंड चैलेंज : ज्यादातर बायोमेडिकल इमेजिंग समस्याओं के लिए। MICCAI में सम्मेलन कार्यशालाएं यहां प्रतियोगिताओं की मेजबानी करती हैं।
- भीड़ : व्यवसाय, विश्वविद्यालय, सरकारी एजेंसियां या गैर सरकारी संगठन विभिन्न चुनौतियों का सामना करते हैं। कार्यशालाओं के रूप में NeurIPS द्वारा प्रतियोगिताएं भी आयोजित की जाती हैं।
उद्योग और शैक्षणिक सहयोग
अब इस अंतिम खंड में, मैं उन तरीकों के बारे में बात करूँगा जो उद्योग और शैक्षणिक सहयोग को सक्षम करते हैं। एक बार जब आप कुछ ऑनलाइन प्रतियोगिताएं कर लेते हैं, तो वे CompVis सिस्टम के निर्माण पर आपके अंतर्ज्ञान का निर्माण करते हैं, क्योंकि वे ज्यादातर वास्तविक दुनिया के डेटा पर आधारित होते हैं। वहां से, आप या तो व्यापार की समस्याओं पर काम करने के लिए उद्योग की ओर जा सकते हैं या शोध करने के लिए अकादमिक क्षेत्र में जा सकते हैं।
ओमडेना एआई : मैंने उलझन में पूछा। एआई ओमडेना क्या है, और यह वही है जो उसने कहा:
ओमडेना एआई एक सहयोगी मंच है जो वास्तविक दुनिया की समस्याओं के लिए एआई और डेटा विज्ञान समाधान तैयार करता है। यह एक समुदाय-प्रथम संगठन है जो दुनिया भर में AI इंजीनियरों को परिवर्तन निर्माता बनने के लिए सशक्त बनाता है और मिशन-संचालित संगठनों और स्टार्टअप्स को वैश्विक सहयोग के माध्यम से प्रभावशाली AI समाधान बनाने में मदद करता है। ओमडेना एआई विशिष्ट परियोजनाओं पर काम करने के लिए दुनिया भर के डेटा वैज्ञानिकों को एक साथ लाने वाली चुनौतियों का संचालन करता है, जैसे कि अमेज़ॅन में जंगल की आग का पता लगाना।
मूल रूप से, यह एक ऐसा मंच है जहां आपको कंपनियों के साथ वास्तविक दुनिया की समस्याओं पर काम करने का मौका मिलता है। एक चेतावनी यह है कि, शुरुआत में, आप जो काम करेंगे वह अवैतनिक है। हालाँकि, जैसे ही आप कुछ परियोजनाओं को पूरा करते हैं (प्रत्येक एक अलग कंपनी के साथ), आप अपना पोर्टफोलियो बनाते हैं और ओमडेना टॉप टैलेंट प्रोग्राम में शामिल हो सकते हैं, जहाँ आपको परियोजनाओं पर काम करने या यहाँ तक कि पूर्णकालिक काम करने के लिए भुगतान मिलता है! एक स्टार्टर के रूप में, मुझे लगता है कि इंटर्नशिप प्राप्त करने के अलावा, यह उद्योग में लोगों के साथ काम करने के सबसे करीब है! यह किसी के लिए एक प्रभावी तरीका है (आप भी!) वास्तविक दुनिया की समस्याओं पर अनुभव बना सकते हैं और उद्योग में प्रवेश कर सकते हैं ।
आपका विश्वविद्यालय: यह सही है, तुम विश्वविद्यालय हो! यह बहुत स्पष्ट प्रतीत होता है, लेकिन मुझे यह बहुत कुछ मिलता है। यदि आप CompVis अनुसंधान पर अधिक ध्यान केंद्रित करना चाहते हैं और अच्छे प्रकाशनों का लक्ष्य रखना चाहते हैं, तो आप संभवतः एक शोध सहायक के रूप में अपने विश्वविद्यालय के प्रोफेसरों के साथ सहयोग कर सकते हैं। यह मेरे लिए तब काम आया जब मैंने पहली बार CompVis शोध शुरू किया। मैं उस कहानी को दूसरे भाग के लिए छोड़ दूँगा! यहाँ आप क्या कर सकते हैं। सबसे पहले, अपने विश्वविद्यालय में उन प्रोफेसरों को कम करें जिनके साथ आप काम करना चाहते हैं। उनकी शोध प्रोफ़ाइल पर एक नज़र डालें, वे किन विषयों पर काम करते हैं, और देखें कि क्या आप वास्तव में उनमें रुचि रखते हैं। फिर, उन सभी को यह कहते हुए ईमेल करें कि आप उनके साथ काम करना चाहेंगे, किन विषयों का उल्लेख करना अच्छा है। यदि आप उनमें से अधिकांश से नहीं सुनते हैं तो यह ठीक है। यह थोड़ा आसान हो जाता है यदि आप पहले से ही उन्हें व्यक्तिगत रूप से जानते हैं और उनकी कक्षाएं ली हैं; बस उनके कार्यालयों में जाओ! और इसी तरह आप अंदर आते हैंशिक्षाविद !
निष्कर्ष
इस पोस्ट में, मैंने शुरुआती के रूप में कंप्यूटर विजन के साथ आरंभ करने और उद्योग या शिक्षा में प्रवेश करने के तरीकों के बारे में बात की। मैंने ऑनलाइन प्रतियोगिताओं के माध्यम से अपने नए ज्ञान को लागू करने और यहां तक कि उद्योग/अकादमिक सहयोग में शामिल होने के लिए कंप्यूटर विजन के मूल सिद्धांतों को सीखने के लिए संसाधनों के साथ-साथ प्लेटफार्मों का उल्लेख किया।
मैं वर्तमान में दोहा में एक ठहराव पर इस टुकड़े को लिख रहा हूं क्योंकि मैं मॉन्ट्रियल, कनाडा से ढाका, बांग्लादेश की यात्रा कर रहा हूं। उन लोगों के लिए जिन्होंने मुझसे पूछा है कि "कंप्यूटर विज़न के साथ शुरुआत कैसे करें", यह आपके लिए है! आपको कामयाबी मिले।
लेखक के बारे में
अलोहा! मैं एक पीएच.डी. कंप्यूटर दृष्टि समस्याओं पर काम कर रहे मॉन्ट्रियल, कनाडा में कॉनकॉर्डिया विश्वविद्यालय में उम्मीदवार। मैं डेकाथलॉन में अंशकालिक रूप से भी काम करता हूं, जहां मैं खेल की छवियों और वीडियो को कार्रवाई योग्य बुद्धिमत्ता में बदलने के लिए डेटा-संचालित टूल बनाने में मदद करता हूं। यदि आप मेरे बारे में अधिक जानने में रुचि रखते हैं, तो कृपया यहां मेरे वेबपेज पर जाएं ।
संदर्भ
[1] हार्ल, मैक्स।, एट अल। "ए लाइट इन द डार्क: डीप लर्निंग प्रैक्टिसेज फॉर इंडस्ट्रियल कंप्यूटर विजन"। अर्क्सिव में, 2022।