Tentukan seberapa baik AUC (Area di bawah Kurva KOP)
Saat ini saya sedang mengerjakan proyek yang melibatkan penggunaan kumpulan data yang berbeda sebagai prediktor untuk memprediksi hasil dari data sampel. Saya menggunakan AUC (Area di bawah Kurva KOP) untuk membandingkan performa setiap kumpulan data.
Saya akrab dengan teori di balik AUC dan ROC, tetapi saya bertanya-tanya apakah ada standar yang tepat untuk menilai ABK , misalnya, jika hasil ABK di atas 0,75, itu akan diklasifikasikan sebagai 'ABK BAIK' , atau di bawah 0,55 , itu akan diklasifikasikan sebagai 'ABK BURUK' .
Apakah ada standar seperti itu, atau ABK selalu hanya untuk membandingkan?
Jawaban
Dari komentar:
Calimo : Jika Anda seorang trader dan Anda bisa mendapatkan AUC 0,501 dalam memprediksi transaksi keuangan di masa depan, Anda adalah orang terkaya di dunia. Jika Anda adalah seorang insinyur CPU dan desain Anda mendapat AUC 0,999 saat mengetahui apakah sedikit adalah 0 atau 1, Anda memiliki bagian silikon yang tidak berguna.
Ini merupakan pelengkap dari jawaban Andrey (+1).
Ketika mencari referensi yang diterima secara umum tentang nilai AUC-ROC, saya menemukan " Regresi Logistik Terapan " Hosmer . Dalam Bab. 5 " Menilai Kesesuaian Model ", ditekankan bahwa " tidak ada angka" ajaib ", hanya pedoman umum ". Di dalamnya, nilai-nilai berikut diberikan:
- ROC = 0,5 Ini menunjukkan tidak ada diskriminasi, (...).
- 0,5 <ROC <0,7 Kami menganggap diskriminasi ini buruk, (...).
- 0.7 $\leq$ ROC <0,8 Kami menganggap diskriminasi yang dapat diterima ini.
- 0.8 $\leq$ ROC <0,9 Kami menganggap diskriminasi ini sangat baik.
- ROC $\geq$ 0.9 Kami menganggap diskriminasi luar biasa ini.
Nilai-nilai ini sama sekali tidak ditetapkan ke batu dan diberikan tanpa konteks apa pun. Seperti yang Star Trek ajarkan kepada kita: " Hukum universal untuk antek, konteks untuk raja " , yaitu (dan lebih serius) kita perlu memahami apa yang kita buat dalam keputusan tertentu dan apa yang tercermin dalam metrik kita. Pedoman saya adalah:
- Untuk setiap tugas baru kita harus secara aktif melihat literatur yang ada untuk melihat apa yang dianggap kinerja kompetitif. (misalnya, deteksi kanker paru-paru dari gambar sinar-X) Secara praktis merupakan tinjauan pustaka.
- Jika tugas kita tidak ada dalam literatur, kita harus bertujuan untuk memberikan perbaikan atas model dasar yang masuk akal. Model dasar tersebut mungkin berupa beberapa aturan praktis sederhana, solusi lain yang ada dan / atau prediksi yang disediakan oleh penilai manusia.
- Jika kita memiliki tugas tanpa literatur yang ada dan tidak tersedia model dasar sederhana, kita harus berhenti mencoba membuat perbandingan kinerja model yang "lebih baik / lebih buruk". Pada titik ini, mengatakan " AUC-R0C 0,75 buruk " atau " AUC-ROC 0,75 baik " adalah masalah opini.
Tidak mungkin untuk mengatakannya karena sangat tergantung pada tugas dan datanya. Untuk beberapa tugas sederhana AUC bisa 90+, untuk yang lain ~ 0,5-0,6.
Secara umum, saya tidak akan mengatakannya. Itu semua tergantung pada tugas, kumpulan data Anda, dan tujuan. Tidak ada aturan praktis bahwa nilai AUC xx didefinisikan sebagai model prediksi yang baik.
Karena itu, Anda ingin mencapai nilai ABK setinggi mungkin. Jika Anda mendapatkan AUC 1, model Anda pada dasarnya adalah prediktor yang sempurna untuk hasil Anda. Dalam kasus 0,5, model Anda tidak terlalu berharga. AUC 0,5 hanya berarti model tersebut hanya memprediksi hasil secara acak, tidak lebih baik daripada yang akan dilakukan monyet (dalam teori). Saya hanya dapat merekomendasikan Anda untuk membaca lebih lanjut tentang itu jika Anda belum melakukannya. Ini sangat mudah. Dan disini .