कभी-कभी CNN मॉडल सभी अन्य में से केवल एक वर्ग की भविष्यवाणी क्यों करते हैं?

Jan 18 2021

मैं सीखने के परिदृश्य के लिए अपेक्षाकृत नया हूं, इसलिए कृपया Reddit के रूप में मत बनो! यह एक सामान्य प्रश्न की तरह लगता है इसलिए मैं अपना कोड यहां नहीं दूंगा क्योंकि यह आवश्यक नहीं लगता है (यदि यह है, तो यहां कॉलो का लिंक है )

डेटा के बारे में थोड़ा: आप यहाँ मूल डेटा पा सकते हैं । यह 82 जीबी के मूल डेटासेट का डाउनसाइज़्ड वर्जन है।

एक बार जब मैंने इस पर अपने सीएनएन को प्रशिक्षित किया, तो यह हर बार Di नो डायबिटिक रेटिनोपैथी ’(नो डीआर) की भविष्यवाणी करता है, जिससे 73% की सटीकता होती है। क्या इसका कारण सिर्फ डीआर छवियों की विशाल मात्रा है या कुछ और है? मुझे पता नहीं है! भविष्यवाणी के लिए मेरे पास 5 कक्षाएं हैं ["Mild", "Moderate", "No DR", "Proliferative DR", "Severe"]।

यह शायद सिर्फ बुरा कोड है, उम्मीद है कि आप लोग मदद कर सकते थे

जवाब

1 Ivan Jan 18 2021 at 00:21

मैं टिप्पणी करने वाला था:

आपके डेटासेट के संतुलन को मापने के लिए एक अधिक कठोर दृष्टिकोण होगा: आपके पास प्रत्येक वर्ग की कितनी छवियां हैं? यह संभवतः आपके प्रश्न का उत्तर देगा।

लेकिन खुद को आपके द्वारा दिए गए लिंक को देखने में मदद नहीं कर सका। कागल आपको पहले से ही डेटासेट का अवलोकन देता है:

त्वरित गणना 25,812 / 35,126 * 100 = 73%:। यह दिलचस्प है, आपने कहा कि आपकी सटीकता थी 74%। आपका मॉडल एक असंतुलित डेटासेट पर सीख रहा है, जिसमें प्रथम श्रेणी का प्रतिनिधित्व किया गया है, 25k/35kबहुत बड़ा है। मेरी परिकल्पना यह है कि आपका मॉडल प्रथम श्रेणी की भविष्यवाणी करता रहता है जिसका अर्थ है कि औसतन आप सटीकता के साथ समाप्त होंगे 74%।

आपको अपने डेटासेट को संतुलित करना चाहिए । उदाहरण के लिए केवल 35,126 - 25,810 = 9,316प्रथम श्रेणी के उदाहरणों को एक युग के दौरान प्रकट करने की अनुमति देकर । और भी बेहतर, अपने डेटासेट को सभी वर्गों पर संतुलित करें, जैसे कि प्रत्येक वर्ग केवल प्रत्येक बार प्रति बार n दिखाई देगा ।

2 Shai Jan 18 2021 at 04:30

जैसा कि इवान ने पहले ही उल्लेख किया है कि आपके पास एक वर्ग असंतुलन समस्या है। इसके माध्यम से हल किया जा सकता है: