พิจารณาว่า AUC ดีเพียงใด (พื้นที่ภายใต้ Curve of ROC)

Aug 15 2020

ฉันกำลังทำโปรเจ็กต์ที่เกี่ยวข้องกับการใช้ชุดข้อมูลที่แตกต่างกันเป็นตัวทำนายเพื่อทำนายผลลัพธ์ของข้อมูลนอกตัวอย่าง ฉันใช้ AUC (พื้นที่ภายใต้ Curve of ROC) เพื่อเปรียบเทียบประสิทธิภาพของข้อมูลแต่ละชุด

ฉันคุ้นเคยกับทฤษฎีเบื้องหลัง AUC และ ROC แต่ฉันสงสัยว่ามีมาตรฐานที่แม่นยำสำหรับการประเมิน AUCหรือไม่เช่นหากผลลัพธ์ของ AUC มีค่ามากกว่า 0.75 จะถูกจัดประเภทเป็น'AUC ที่ดี'หรือต่ำกว่า 0.55 ก็จะมีการจัดเป็น'BAD AUC'

มีมาตรฐานดังกล่าวหรือไม่หรือ AUC มีไว้เพื่อเปรียบเทียบเท่านั้น

คำตอบ

17 SextusEmpiricus Aug 16 2020 at 23:45

จากความคิดเห็น:

Calimo : หากคุณเป็นเทรดเดอร์และคุณจะได้รับ AUC เท่ากับ 0.501 ในการทำนายธุรกรรมทางการเงินในอนาคตคุณคือคนที่ร่ำรวยที่สุดในโลก หากคุณเป็นวิศวกร CPU และการออกแบบของคุณได้รับ AUC ที่ 0.999 ในการบอกว่าบิตเป็น 0 หรือ 1 แสดงว่าคุณมีซิลิกอนที่ไร้ประโยชน์

10 usεr11852 Aug 16 2020 at 15:19

นี่เป็นส่วนเสริมสำหรับคำตอบของ Andrey (+1)

เมื่อต้องการข้อมูลอ้างอิงที่ยอมรับโดยทั่วไปเกี่ยวกับค่า AUC-ROC ฉันพบ " Applied Logistic Regression " ของ Hosmer ในบทที่. 5 " การประเมินความพอดีของโมเดล " เน้นย้ำว่า " ไม่มีตัวเลข" วิเศษ "เป็นเพียงหลักเกณฑ์ทั่วไป " ในนั้นจะได้รับค่าต่อไปนี้:

  • ROC = 0.5 สิ่งนี้ชี้ให้เห็นว่าไม่มีการเลือกปฏิบัติ (... )
  • 0.5 <ROC <0.7 เราพิจารณาถึงการเลือกปฏิบัติที่ไม่ดีนี้ (... )
  • 0.7 $\leq$ ROC <0.8 เราพิจารณาถึงการเลือกปฏิบัติที่ยอมรับได้นี้
  • 0.8 $\leq$ ROC <0.9 เราพิจารณาการเลือกปฏิบัติที่ดีเยี่ยมนี้
  • ร็อค $\geq$ 0.9 เราพิจารณาถึงการเลือกปฏิบัติที่โดดเด่นนี้

ค่าเหล่านี้ไม่ได้ถูกกำหนดให้เป็นหินและจะได้รับโดยไม่มีบริบทใด ๆ ดังที่ Star Trek สอนเรา: " กฎหมายสากลมีไว้สำหรับคนขี้เกียจบริบทมีไว้สำหรับกษัตริย์ "กล่าวคือ (และจริงจังมากขึ้น) เราต้องเข้าใจสิ่งที่เรากำลังตัดสินใจโดยเฉพาะและสิ่งที่เมตริกของเราสะท้อนถึง แนวทางของฉันคือ:

  1. สำหรับงานใหม่ใด ๆ เราควรดูวรรณกรรมที่มีอยู่อย่างกระตือรือร้นเพื่อดูว่าอะไรคือประสิทธิภาพในการแข่งขัน (เช่นการตรวจหามะเร็งปอดจากภาพเอกซเรย์) นี่เป็นการทบทวนวรรณกรรม
  2. หากงานของเราไม่มีอยู่ในวรรณกรรมเราควรตั้งเป้าหมายที่จะปรับปรุงรูปแบบพื้นฐานที่สมเหตุสมผล แบบจำลองพื้นฐานดังกล่าวอาจเป็นกฎง่ายๆวิธีแก้ปัญหาอื่น ๆ ที่มีอยู่และ / หรือการคาดการณ์ที่จัดทำโดยผู้ประเมินโดยมนุษย์
  3. หากเรามีงานที่ไม่มีเอกสารประกอบและไม่มีโมเดลพื้นฐานอย่างง่ายเราควรหยุดพยายามทำการเปรียบเทียบประสิทธิภาพโมเดลที่ "ดีขึ้น / แย่ลง" ในตอนนี้การพูดว่า " AUC-R0C 0.75 ไม่ดี " หรือ " AUC-ROC 0.75 นั้นดี " เป็นเรื่องของความคิดเห็น
8 AndreyLukyanenko Aug 16 2020 at 03:25

พูดไม่ได้เพราะขึ้นอยู่กับงานและข้อมูลจริงๆ สำหรับงานง่ายๆบางอย่าง AUC สามารถเป็น 90+ สำหรับงานอื่น ๆ ~ 0.5-0.6

3 Thomas Aug 16 2020 at 13:10

โดยทั่วไปฉันจะไม่พูดเช่นนั้น ทุกอย่างขึ้นอยู่กับงานชุดข้อมูลและวัตถุประสงค์ของคุณ ไม่มีกฎทั่วไปว่าค่า AUC ของ xx ถูกกำหนดให้เป็นรูปแบบการทำนายที่ดี

ดังที่กล่าวมาคุณต้องการบรรลุค่า AUC ให้สูงที่สุดเท่าที่จะเป็นไปได้ ในกรณีที่คุณได้รับ AUC เป็น 1 แบบจำลองของคุณเป็นตัวทำนายที่สมบูรณ์แบบสำหรับผลลัพธ์ของคุณ ในกรณี 0.5 แบบจำลองของคุณไม่มีค่าจริงๆ AUC ที่ 0.5 หมายความว่าแบบจำลองเป็นเพียงการสุ่มทำนายผลลัพธ์ไม่ดีไปกว่าที่ลิงจะทำ (ในทางทฤษฎี) ฉันแนะนำให้คุณอ่านเพิ่มเติมได้ก็ต่อเมื่อคุณยังไม่มี นี้ตรงไปตรงมา realtively และที่นี่