कम दृष्टि वाले समुदाय के लाभ के लिए प्रशिक्षण मशीन लर्निंग

May 04 2023
2023 IEEE-EMBC सम्मेलन में आर्टिफिशियल इंटेलिजेंस ने दृष्टिहीन या कम दृष्टि वाले लोगों को लाभान्वित करने के लिए प्रौद्योगिकियों के विकास के लिए महत्वपूर्ण क्षमता दिखाई है। ये ऑब्जेक्ट डिटेक्शन मॉडल आमतौर पर दृष्टिहीन लोगों की जरूरतों के लिए विशिष्ट डेटासेट के बजाय सामान्य डेटा पर प्रशिक्षित होते हैं।

2023 आईईईई-ईएमबीसी सम्मेलन में सीडीएस छात्रों द्वारा एक कैपस्टोन पेपर स्वीकार किया गया था कि कैसे एआई मॉडल दृष्टिहीन लोगों की सहायता के लिए वस्तुओं को बेहतर ढंग से पहचान सकते हैं।

थरंगिनी शंकरनारायणन (बाएं), खेवना पारिख (बीच में), लेव पचियोरकोव्स्की (दाएं)

आर्टिफिशियल इंटेलिजेंस ने अंधेपन या कम दृष्टि वाले लोगों को लाभान्वित करने के लिए विकासशील प्रौद्योगिकियों के लिए महत्वपूर्ण क्षमता दिखाई है। ये ऑब्जेक्ट डिटेक्शन मॉडल आमतौर पर दृष्टिहीन लोगों की जरूरतों के लिए विशिष्ट डेटासेट के बजाय सामान्य डेटा पर प्रशिक्षित होते हैं। CDS मास्टर्स छात्रों थारंगिनी शंकरनारायणन , लेव पचियोरकोव्स्की, और खेवना पारिख सहित NYU के शोधकर्ताओं की एक टीम ने अपने कैपस्टोन प्रोजेक्ट के लिए इस मुद्दे को हल किया, कम दृष्टि वाले लोगों द्वारा नियमित रूप से सामना की जाने वाली वस्तुओं का एक डेटासेट विकसित किया।

पेपर "ब्लाइंड एंड लो विजन कम्युनिटी के लिए रुचि की वस्तुओं को पहचानने के लिए एआई प्रशिक्षण" PubMed में प्रकाशित होने वाला है और सिडनी में आयोजित IEEE इंजीनियरिंग इन मेडिकल बायोलॉजी सोसाइटी (IEEE-EMBC) के 45 वें वार्षिक अंतर्राष्ट्रीय सम्मेलन में स्वीकार किया गया था। 24 जुलाई से 27 तारीख तक।

काम पर सह-लेखकों में एनवाईयू ग्रॉसमैन स्कूल ऑफ मेडिसिन जाइल्स हैमिल्टन-फ्लेचर में पोस्टडॉक्टरल फेलो, एनवाईयू टंडन चेन फेंग में सहायक प्रोफेसर , एनवाईयू टंडन दिवेई शेंग में मास्टर्स छात्र, एनवाईयू ग्रॉसमैन टोड ई. हडसन , इलसे मेलमिड एसोसिएट में अनुसंधान सहायक प्रोफेसर शामिल हैं। NYU ग्रॉसमैन जॉन-रॉस रिज़ो में पुनर्वास चिकित्सा के प्रोफेसर , और NYU ग्रॉसमैन केविन सी. चान में सहायक प्रोफेसर और न्यूरोइमेजिंग और दृश्य विज्ञान प्रयोगशाला के निदेशक । इस कार्य को यूएस डिपार्टमेंट ऑफ डिफेंस विजन रिसर्च प्रोग्राम और NYU लैंगोन हेल्थ डिपार्टमेंट ऑफ ऑप्थल्मोलॉजी को रिसर्च टू प्रिवेंट ब्लाइंडनेस द्वारा अनुदान से अतिरिक्त रूप से समर्थित किया गया था।

उपयोगकर्ता-केंद्रित प्रतिक्रिया का उपयोग करके, शोधकर्ताओं ने नेत्रहीन लोगों के लिए आवश्यक पैंतीस वस्तुओं की पहचान की। उन्होंने सार्वजनिक रूप से उपलब्ध डेटासेट से वस्तुओं की छवियां एकत्र कीं और चयनित वस्तुओं को पहचानने के लिए एक YOLOv5x मॉडल को प्रशिक्षित किया। मॉडल को चलाने के माध्यम से, उन्होंने पाया कि यह कॉफी मग, चाकू, कांटे और चश्मा जैसी वस्तुओं की पहचान करने में पिछले मॉडल की तुलना में काफी बेहतर था। शोधकर्ताओं ने यह भी पाया कि प्रशिक्षण डेटासेट में विभिन्न प्रकार की वस्तुओं की संतुलित संख्या होने से मॉडल की वस्तुओं का पता लगाने की क्षमता के साथ-साथ उसकी गति में भी सुधार हुआ।

सीडीएस लेखकों ने कहा, "इस तरह की कंप्यूटर दृष्टि प्रौद्योगिकी में तेजी से प्रगति और नेत्रहीन समुदाय के लिए इसकी क्षमता को देखना रोमांचक है।" "वर्तमान में सबसे बड़ी चुनौती उच्च गुणवत्ता वाले प्रशिक्षण डेटासेट प्राप्त करने में प्रतीत होती है जो वास्तविक दुनिया के वातावरण का सटीक रूप से प्रतिनिधित्व करती है जिसमें इस तरह के मॉडल को तैनात किया जाएगा। आगे बढ़ते हुए हमें लगता है कि इस बात पर अधिक ध्यान दिया जाना चाहिए कि कौन सी प्रशिक्षण छवियों का उपयोग किया जाता है और वे कहाँ से आती हैं।

दृष्टिहीन लोगों की सहायता करने वाले मशीन लर्निंग मॉडल के विकास के लिए उपलब्ध डेटा में सुधार के साथ-साथ, अनुसंधान सहायक तकनीकों के लिए प्रशिक्षण डेटा को क्यूरेट करने के महत्व को प्रदर्शित करता है जो व्यक्तिगत उपयोगकर्ताओं की जरूरतों को पूरा करता है।

मेरिल फेयर द्वारा