निर्धारित करें कि AUC कितना अच्छा है (ROC के वक्र के नीचे क्षेत्र)

Aug 15 2020

वर्तमान में मैं एक परियोजना पर काम कर रहा हूं जिसमें आउट-सैंपल डेटा के परिणामों की भविष्यवाणी करने के लिए भविष्यवक्ता के रूप में डेटा के विभिन्न सेटों का उपयोग करना शामिल है। मैं डेटा के प्रत्येक सेट के प्रदर्शन की तुलना करने के लिए एयूसी (आरओसी के वक्र के तहत क्षेत्र) का उपयोग करता हूं।

मैं एयूसी और आरओसी के पीछे के सिद्धांत से परिचित हूं, लेकिन मैं सोच रहा हूं कि एयूसी का आकलन करने के लिए एक सटीक मानक है , उदाहरण के लिए, यदि एयूसी का परिणाम 0.75 से अधिक है, तो इसे 'गुड ऑक' के रूप में वर्गीकृत किया जाएगा , या 0.55 से नीचे होगा। , इसे 'BAD AUC' के रूप में वर्गीकृत किया जाएगा ।

क्या ऐसा कोई मानक है, या AUC केवल तुलना करने के लिए है?

जवाब

17 SextusEmpiricus Aug 16 2020 at 23:45

टिप्पणियों से:

कैलीमो : यदि आप एक व्यापारी हैं और आप भविष्य के वित्तीय लेनदेन की भविष्यवाणी करने में 0.501 का एयूसी प्राप्त कर सकते हैं, तो आप दुनिया के सबसे अमीर व्यक्ति हैं। यदि आप एक सीपीयू इंजीनियर हैं और आपके डिज़ाइन को 0.999 का एयूसी मिलता है, तो यह बताने पर कि थोड़ा 0 या 1 है, आपके पास एक बेकार टुकड़ा है।

10 usεr11852 Aug 16 2020 at 15:19

यह एंड्री के उत्तर (+1) का पूरक है।

जब एयूसी-आरओसी मूल्यों पर आम तौर पर स्वीकार किए गए संदर्भ की तलाश में, मैं होसमेर के " एप्लाइड लॉजिस्टिक रिग्रेशन " पर आया। अध्याय में। 5 " मॉडल के फिट का आकलन ", इसने जोर दिया कि " कोई" जादू "संख्या नहीं है, केवल सामान्य दिशानिर्देश हैं "। इसमें निम्नलिखित मूल्य दिए गए हैं:

  • आरओसी = 0.5 यह कोई भेदभाव नहीं बताता है, (...)।
  • 0.5 <ROC <0.7 हम इस गरीब भेदभाव पर विचार करते हैं, (...)।
  • 0.7 $\leq$ ROC <0.8 हम इस स्वीकार्य भेदभाव पर विचार करते हैं।
  • 0.8 $\leq$ आरओसी <0.9 हम इस उत्कृष्ट भेदभाव पर विचार करते हैं।
  • आरओसी $\geq$ 0.9 हम इस बकाया भेदभाव पर विचार करते हैं।

ये मान किसी भी तरह से निर्धारित पत्थर से नहीं हैं और ये बिना किसी संदर्भ के दिए गए हैं। जैसा कि स्टार ट्रेक हमें सिखाता है: " सार्वभौमिक कानून अभावों के लिए है, संदर्भ राजाओं के लिए है " , अर्थात (और अधिक गंभीरता से) हमें यह समझने की आवश्यकता है कि हम क्या एक विशेष निर्णय ले रहे हैं और हमारे मैट्रिक्स क्या दर्शाते हैं। मेरे दिशानिर्देश होंगे:

  1. किसी भी नए कार्य के लिए हमें मौजूदा साहित्य को सक्रिय रूप से देखना चाहिए कि प्रतिस्पर्धात्मक प्रदर्शन क्या माना जाता है। (जैसे एक्स-रे छवियों से फेफड़ों के कैंसर का पता लगाना) यह व्यावहारिक रूप से एक साहित्य समीक्षा है।
  2. यदि हमारे कार्य साहित्य में मौजूद नहीं हैं, तो हमें एक उचित आधार रेखा मॉडल पर सुधार प्रदान करने का लक्ष्य रखना चाहिए। वह आधार रेखा मॉडल अंगूठे के कुछ सरल नियम, अन्य मौजूदा समाधान और / या मानव रोटर द्वारा प्रदान की गई भविष्यवाणियां हो सकती हैं।
  3. यदि हमारे पास कोई मौजूदा साहित्य नहीं है और कोई सरल आधार रेखा मॉडल उपलब्ध नहीं है, तो हमें "बेहतर / खराब" मॉडल प्रदर्शन तुलना करने की कोशिश करना बंद कर देना चाहिए। इस बिंदु पर, यह कहना " AUC-R0C 0.75 खराब है " या " AUC-ROC 0.75 अच्छा है " एक राय का विषय है।
8 AndreyLukyanenko Aug 16 2020 at 03:25

यह कहना संभव नहीं है क्योंकि यह वास्तव में कार्य और डेटा पर निर्भर करता है। कुछ सरल कार्यों के लिए AUC 90+ हो सकता है, दूसरों के लिए ~ 0.5-0.6।

3 Thomas Aug 16 2020 at 13:10

आम तौर पर, मैं ऐसा नहीं कहूंगा। यह सब कार्य, आपके डेटा सेट और उद्देश्यों पर निर्भर करता है। अंगूठे का कोई नियम नहीं है कि एक्सएक्सएक्स के एयूसी मूल्य को एक अच्छे पूर्वानुमान मॉडल के रूप में परिभाषित किया गया है।

कहा जा रहा है, आप यथासंभव उच्च AUC मान प्राप्त करना चाहते हैं। उन मामलों में जहां आपको 1 का एयूसी मिलता है, आपका मॉडल अनिवार्य रूप से आपके परिणाम के लिए एक सटीक भविष्यवक्ता है। 0.5 के मामलों में, आपका मॉडल वास्तव में मूल्यवान नहीं है। 0.5 के एक एयूसी का मतलब है कि मॉडल सिर्फ यादृच्छिक रूप से अनुमान लगा रहा है कि बंदर की तुलना में बेहतर कोई नहीं होगा (सिद्धांत रूप में)। मैं केवल आपको इसके बारे में और अधिक पढ़ने की सलाह दे सकता हूं यदि आपके पास ऐसा नहीं है। यह वास्तविक रूप से सीधा है। और, यहाँ