AUC'nin ne kadar iyi olduğunu belirleyin (ROC Eğrisi Altındaki Alan)
Şu anda, örneklem dışı verilerin sonucunu tahmin etmek için farklı veri kümelerini bir tahmin aracı olarak kullanmayı içeren bir proje üzerinde çalışıyorum. Her bir veri kümesinin performanslarını karşılaştırmak için AUC (ROC Eğrisi Altındaki Alan) kullanıyorum.
AUC ve ROC'nin arkasındaki teoriye aşinayım, ancak AUC'yi değerlendirmek için kesin bir standart olup olmadığını merak ediyorum, örneğin, bir EAA sonucu 0,75'in üzerindeyse, 'İYİ AUC' veya 0,55'in altında sınıflandırılacaktır. , 'KÖTÜ AUC' olarak sınıflandırılacaktır .
Böyle bir standart var mı, yoksa AUC her zaman sadece karşılaştırma için mi?
Yanıtlar
Yorumlardan:
Calimo : Eğer bir tüccarsanız ve gelecekteki finansal işlemleri tahmin etmede 0.501 AUC elde edebiliyorsanız, dünyanın en zengin adamısınız. Bir CPU mühendisi iseniz ve tasarımınız bir bitin 0 veya 1 olduğunu söylerken 0,999 AUC alırsa, işe yaramaz bir silikon parçanız vardır.
Bu, Andrey'in cevabının tamamlayıcısıdır (+1).
AUC-ROC değerleriyle ilgili genel kabul görmüş bir referans ararken Hosmer'ın " Uygulamalı Lojistik Regresyon " ile karşılaştım. Bölümlerde. 5 " Modelin Uyumunun Değerlendirilmesi ", "sihirli" sayı yoktur, sadece genel kurallar olduğunu vurguladı . Orada aşağıdaki değerler verilmiştir:
- ROC = 0.5 Bu ayrımcılık olmadığını gösterir, (...).
- 0.5 <ROC <0.7 Bu zayıf ayrımcılığı düşünüyoruz, (...).
- 0.7 $\leq$ ROC <0.8 Bu kabul edilebilir ayrımcılığı düşünüyoruz.
- 0.8 $\leq$ ROC <0.9 Bu mükemmel ayrımcılığı düşünüyoruz.
- ROC $\geq$ 0.9 Bu olağanüstü ayrımcılık olarak görüyoruz.
Bu değerler hiçbir şekilde değiştirilemez ve herhangi bir bağlam olmadan verilir. Star Trek'in bize öğrettiği gibi: " Evrensel hukuk uşaklar içindir, bağlam krallar içindir " , yani (ve daha ciddisi) belirli bir kararı ne verdiğimizi ve ölçütlerimizin neyi yansıttığını anlamamız gerekir. Yönergelerim şöyle olacaktır:
- Herhangi bir yeni görev için, neyin rekabetçi performans olarak kabul edildiğini görmek için mevcut literatüre aktif olarak bakmalıyız. (örneğin, X-ışını görüntülerinden akciğer kanserinin tespiti) Bu pratik olarak bir literatür taramasıdır.
- Görevlerimiz literatürde mevcut değilse, makul bir temel model üzerinde bir gelişme sağlamayı hedeflemeliyiz. Bu temel model, bazı basit pratik kurallar, diğer mevcut çözümler ve / veya insan değerlendiriciler tarafından sağlanan tahminler olabilir.
- Mevcut literatürü olmayan ve basit bir temel modeli olmayan bir görevimiz varsa, "daha iyi / daha kötü" bir model performans karşılaştırması yapmayı bırakmalıyız. Bu noktada, " AUC-R0C 0.75 kötü " veya " AUC-ROC 0.75 iyidir " demek bir görüş meselesidir.
Bunu söylemek mümkün değil çünkü gerçekten göreve ve verilere bağlı. Bazı basit görevler için AUC 90+, diğerleri için ~ 0.5-0.6 olabilir.
Genelde öyle demezdim. Her şey göreve, veri kümenize ve hedeflere bağlıdır. Xx'in AUC değerinin iyi bir tahmin modeli olarak tanımlandığına dair genel bir kural yoktur.
Bununla birlikte, mümkün olduğunca yüksek bir AUC değeri elde etmek istiyorsunuz. AUC'nin 1 olduğu durumlarda, modeliniz esas olarak sonucunuz için mükemmel bir tahmin aracıdır. 0.5 durumlarında, modeliniz gerçekten değerli değildir. AUC'nin 0,5 olması, modelin sonucu bir maymunun yapacağından daha iyi olmayan rastgele tahmin ettiği anlamına gelir (teoride). Henüz okumadıysanız, daha fazlasını okumanızı tavsiye edebilirim. Bu gerçekten çok basit. Ve burada .