Determine qué tan bueno es un AUC (área bajo la curva de ROC)

Aug 15 2020

Actualmente estoy trabajando en un proyecto que implica el uso de diferentes conjuntos de datos como predictor para predecir el resultado de datos fuera de la muestra. Utilizo AUC (Área bajo la curva de ROC) para comparar los rendimientos de cada conjunto de datos.

Estoy familiarizado con la teoría detrás de AUC y ROC, pero me pregunto si existe un estándar preciso para evaluar el AUC , por ejemplo, si un resultado de AUC es superior a 0,75, se clasificará como un 'BUEN AUC' o por debajo de 0,55 , se clasificará como 'BAD AUC' .

¿Existe un estándar de este tipo, o el AUC es siempre solo para comparar?

Respuestas

17 SextusEmpiricus Aug 16 2020 at 23:45

De los comentarios:

Calimo : Si es un comerciante y puede obtener un AUC de 0,501 en la predicción de transacciones financieras futuras, es el hombre más rico del mundo. Si eres un ingeniero de CPU y tu diseño obtiene un AUC de 0.999 al decir si un bit es 0 o 1, tienes una pieza de silicio inútil.

10 usεr11852 Aug 16 2020 at 15:19

Este es un complemento de la respuesta de Andrey (+1).

Al buscar una referencia generalmente aceptada sobre los valores AUC-ROC, encontré la " Regresión logística aplicada " de Hosmer . En el Cap. 5 " Evaluando el ajuste del modelo ", enfatizó que " no hay un número" mágico ", solo pautas generales ". Allí se dan los siguientes valores:

  • ROC = 0.5 Esto sugiere que no hay discriminación, (...).
  • 0.5 <ROC <0.7 Consideramos esta pobre discriminación, (...).
  • 0,7 $\leq$ ROC <0,8 Consideramos esta discriminación aceptable.
  • 0.8 $\leq$ ROC <0,9 Consideramos esta excelente discriminación.
  • República de China $\geq$ 0.9 Consideramos esta discriminación destacada.

Estos valores de ninguna manera son inamovibles y se dan sin ningún contexto. Como nos enseña Star Trek: "La ley universal es para los lacayos, el contexto es para los reyes " , es decir (y más en serio) necesitamos entender qué estamos tomando una decisión en particular y qué reflejan nuestras métricas. Mis pautas serían:

  1. Para cualquier tarea nueva, debemos mirar activamente la literatura existente para ver qué se considera desempeño competitivo. (por ejemplo, detección de cáncer de pulmón a partir de imágenes de rayos X) Esta es prácticamente una revisión de la literatura.
  2. Si nuestras tareas no están presentes en la literatura, debemos tratar de proporcionar una mejora sobre un modelo de línea de base razonable. Ese modelo de línea de base podría ser algunas reglas generales simples, otras soluciones existentes y / o predicciones proporcionadas por evaluadores humanos.
  3. Si tenemos una tarea sin literatura existente y sin un modelo de línea de base simple disponible, deberíamos dejar de intentar hacer una comparación de desempeño del modelo "mejor / peor". En este punto, decir " AUC-R0C 0,75 es malo " o " AUC-ROC 0,75 es bueno " es una cuestión de opinión.
8 AndreyLukyanenko Aug 16 2020 at 03:25

No es posible decirlo porque realmente depende de la tarea y los datos. Para algunas tareas simples, el AUC puede ser 90+, para otras ~ 0.5-0.6.

3 Thomas Aug 16 2020 at 13:10

Generalmente, no lo diría. Todo depende de la tarea, su conjunto de datos y objetivos. No existe una regla general que establezca que un valor AUC de xx se define como un buen modelo de predicción.

Dicho esto, desea lograr un valor AUC lo más alto posible. En los casos en los que obtiene un AUC de 1, su modelo es esencialmente un predictor perfecto para su resultado. En los casos de 0.5, su modelo no es realmente valioso. Un AUC de 0.5 solo significa que el modelo solo predice aleatoriamente el resultado no mejor de lo que haría un mono (en teoría). Solo puedo recomendarte que leas más al respecto si no lo has hecho. Esto es realmente sencillo. Y aquí .