Bestimmen Sie, wie gut eine AUC ist (Fläche unter der Kurve des ROC)
Ich arbeite derzeit an einem Projekt, bei dem verschiedene Datensätze als Prädiktor verwendet werden, um das Ergebnis von Out-Sample-Daten vorherzusagen. Ich verwende AUC (Area under the Curve of ROC), um die Leistung jedes Datensatzes zu vergleichen.
Ich bin mit der Theorie hinter AUC und ROC vertraut, aber ich frage mich , ob es einen genauen Standard für die Bewertung von AUC gibt. Wenn beispielsweise ein AUC-Ergebnis über 0,75 liegt, wird es als „GUTE AUC“ oder unter 0,55 eingestuft wird es als "BAD AUC" eingestuft .
Gibt es einen solchen Standard oder dient die AUC immer nur zum Vergleichen?
Antworten
Aus den Kommentaren:
Calimo : Wenn Sie ein Händler sind und eine AUC von 0,501 für die Vorhersage zukünftiger Finanztransaktionen erzielen können, sind Sie der reichste Mann der Welt. Wenn Sie ein CPU-Ingenieur sind und Ihr Design eine AUC von 0,999 erhält, wenn Sie feststellen, ob ein Bit 0 oder 1 ist, haben Sie ein nutzloses Stück Silizium.
Dies ist eine Ergänzung zu Andreys Antwort (+1).
Auf der Suche nach einer allgemein akzeptierten Referenz zu AUC-ROC-Werten bin ich auf Hosmers " Applied Logistic Regression " gestoßen . In Kap. 5 " Bewertung der Passform des Modells " betonte, dass " es keine" magische "Zahl gibt, nur allgemeine Richtlinien ". Darin sind folgende Werte angegeben:
- ROC = 0,5 Dies deutet auf keine Diskriminierung hin, (...).
- 0,5 <ROC <0,7 Wir betrachten diese schlechte Diskriminierung (...).
- 0,7 $\leq$ ROC <0,8 Wir betrachten diese akzeptable Diskriminierung.
- 0,8 $\leq$ ROC <0,9 Wir betrachten diese hervorragende Diskriminierung.
- ROC $\geq$ 0.9 Wir betrachten diese herausragende Diskriminierung.
Diese Werte sind keineswegs in Stein gemeißelt und werden ohne Kontext angegeben. Wie Star Trek uns lehrt: "Das universelle Gesetz ist für Lakaien, der Kontext ist für Könige " , dh (und im Ernst) wir müssen verstehen, was wir eine bestimmte Entscheidung treffen und was unsere Metriken widerspiegeln. Meine Richtlinien wären:
- Für jede neue Aufgabe sollten wir uns aktiv mit der vorhandenen Literatur befassen, um festzustellen, was als Wettbewerbsleistung angesehen wird. (zB Erkennung von Lungenkrebs anhand von Röntgenbildern) Dies ist praktisch eine Literaturübersicht.
- Wenn unsere Aufgaben in der Literatur nicht vorhanden sind, sollten wir versuchen, eine Verbesserung gegenüber einem vernünftigen Basismodell zu erzielen. Dieses Basismodell kann einige einfache Faustregeln, andere vorhandene Lösungen und / oder Vorhersagen sein, die von menschlichen Bewertern bereitgestellt werden.
- Wenn wir eine Aufgabe haben, für die keine Literatur vorhanden ist und kein einfaches Basismodell verfügbar ist, sollten wir aufhören, einen "besseren / schlechteren" Modellleistungsvergleich durchzuführen. Zu diesem Zeitpunkt ist es Ansichtssache , zu sagen, dass " AUC-R0C 0,75 schlecht ist " oder " AUC-ROC 0,75 ist gut ".
Es ist nicht möglich zu sagen, weil es wirklich von der Aufgabe und den Daten abhängt. Für einige einfache Aufgaben kann die AUC 90+ betragen, für andere ~ 0,5-0,6.
Generell würde ich das nicht sagen. Es hängt alles von der Aufgabe, Ihrem Datensatz und den Zielen ab. Es gibt keine Faustregel, dass ein AUC-Wert von xx als gutes Vorhersagemodell definiert ist.
Davon abgesehen möchten Sie einen möglichst hohen AUC-Wert erreichen. In Fällen, in denen Sie eine AUC von 1 erhalten, ist Ihr Modell im Wesentlichen ein perfekter Prädiktor für Ihr Ergebnis. In Fällen von 0,5 ist Ihr Modell nicht wirklich wertvoll. Eine AUC von 0,5 bedeutet nur, dass das Modell das Ergebnis nur zufällig vorhersagt, nicht besser als ein Affe (theoretisch). Ich kann Ihnen nur empfehlen, mehr darüber zu lesen, wenn Sie dies nicht getan haben. Dies ist relativ einfach. Und hier .