Déterminer la qualité d'une AUC (zone sous la courbe de ROC)
Je travaille actuellement sur un projet impliquant l'utilisation de différents ensembles de données comme prédicteur pour prédire le résultat des données hors échantillon. J'utilise AUC (Area under the Curve of ROC) pour comparer les performances de chaque ensemble de données.
Je connais la théorie derrière l'AUC et le ROC, mais je me demande s'il existe une norme précise pour évaluer l'AUC , par exemple, si un résultat AUC est supérieur à 0,75, il sera classé comme `` BON AUC '' , ou inférieur à 0,55 , il sera classé comme «MAUVAISE AUC» .
Existe-t-il une telle norme, ou l'AUC sert-elle toujours uniquement à comparer?
Réponses
D'après les commentaires:
Calimo : Si vous êtes un commerçant et que vous pouvez obtenir une AUC de 0,501 pour prédire les futures transactions financières, vous êtes l'homme le plus riche du monde. Si vous êtes un ingénieur CPU et que votre conception obtient un AUC de 0,999 pour dire si un bit est 0 ou 1, vous avez un morceau de silicium inutile.
C'est un complément à la réponse d'Andrey (+1).
En cherchant une référence généralement acceptée sur les valeurs AUC-ROC, je suis tombé sur " Applied Logistic Regression " de Hosmer . Dans le chap. 5 « Évaluation de l'ajustement du modèle », il a souligné qu '« il n'y a pas de nombre« magique », seulement des directives générales ». Ici, les valeurs suivantes sont données:
- ROC = 0,5 Cela ne suggère aucune discrimination, (...).
- 0,5 <ROC <0,7 Nous considérons cette faible discrimination, (...).
- 0,7 $\leq$ ROC <0,8 Nous considérons cette discrimination comme acceptable.
- 0,8 $\leq$ ROC <0,9 Nous considérons cette excellente discrimination.
- ROC $\geq$ 0.9 Nous considérons cette discrimination exceptionnelle.
Ces valeurs ne sont en aucun cas figées et données sans aucun contexte. Comme Star Trek nous l'enseigne: « La loi universelle est pour les laquais, le contexte est pour les rois » , c'est-à-dire (et plus sérieusement) nous devons comprendre ce que nous prenons une décision particulière et ce que nos métriques reflètent. Mes directives seraient:
- Pour toute nouvelle tâche, nous devons examiner activement la littérature existante pour voir ce qui est considéré comme une performance concurrentielle. (par exemple, détection du cancer du poumon à partir d'images radiographiques) Il s'agit pratiquement d'une revue de la littérature.
- Si nos tâches ne sont pas présentes dans la littérature, nous devrions viser à fournir une amélioration par rapport à un modèle de référence raisonnable. Ce modèle de base pourrait être quelques règles empiriques simples, d'autres solutions existantes et / ou des prédictions fournies par des évaluateurs humains.
- Si nous avons une tâche sans littérature existante et sans modèle de base simple disponible, nous devrions arrêter d'essayer de faire une comparaison des performances du modèle «meilleur / pire». À ce stade, dire " AUC-R0C 0.75 est mauvais " ou " AUC-ROC 0.75 est bon " est une question d'opinion.
Ce n'est pas possible de le dire car cela dépend vraiment de la tâche et des données. Pour certaines tâches simples, l'AUC peut être de 90+, pour d'autres ~ 0,5-0,6.
En général, je ne le dirais pas. Tout dépend de la tâche, de votre ensemble de données et des objectifs. Il n'y a pas de règle empirique selon laquelle une valeur AUC de xx est définie comme un bon modèle de prédiction.
Cela étant dit, vous voulez atteindre une valeur AUC aussi élevée que possible. Dans les cas où vous obtenez une AUC de 1, votre modèle est essentiellement un prédicteur parfait de votre résultat. Dans le cas de 0,5, votre modèle n'a pas vraiment de valeur. Une AUC de 0,5 signifie simplement que le modèle ne prédit au hasard le résultat pas mieux qu'un singe ne le ferait (en théorie). Je ne peux que vous recommander d'en savoir plus à ce sujet si vous ne l'avez pas fait. C'est vraiment simple. Et, ici .