Inmersión profunda en la retención de características del producto: coeficiente MCC
La última vez que usamos la métrica de ganancia de información para clasificar las características del producto según su impacto en la retención de usuarios.
La obtención de información es un enfoque bastante robusto y útil que se utiliza en el algoritmo ML, que se denomina árbol de decisión . Ayuda a cuantificar qué tan bien cada característica del producto separa a los usuarios en 2 grupos: retenidos y batidos.
Como mencioné en una publicación anterior, cuando queremos evaluar el impacto de las características del producto en la retención, debemos tener en cuenta ambos casos:
- % de usos que usaron la función y retuvieron
- % de usuarios que no usaron el futuro y no retuvieron
Volvamos a la característica 18 que mencioné en la publicación anterior.

feature18 tiene la tercera ganancia de información más alta (0.0139) , pero si miramos detenidamente veremos:
- los usuarios que usaron la función 18 tienen retención de usuarios = 7.4%
- los usuarios que no usaron la función 18 tienen retención de usuarios = 19.9%
Desde la perspectiva de ML, está completamente bien, pero desde una perspectiva de análisis de productos, no es como queremos clasificar las características del producto según las cuales los usuarios probablemente regresen al producto en lugar de no devolverlo.
Para superar este problema, recomiendo usar el coeficiente MCC . Este coeficiente es un coeficiente de correlación para dos variables binarias.
Hay varias variantes de cálculo de MCC, pero prefiero usar esta:

Entonces, calculemos el coeficiente MCC y visualicémoslo.

El cuadro de arriba nos da algunas ideas muy interesantes:
- feature18 y algunos otros tienen un valor negativo .
- muchas funciones de productos populares (utilizadas por muchos usuarios) tienen un impacto negativo en la retención.
No hay nada malo con estas características populares. Son algún tipo de características de configuración. Los usuarios los utilizaron para configurar el producto durante la 'incorporación'.
Como estas características del producto aparecen en la parte superior del embudo (donde hay muchos usuarios con poca intención), tienen una retención de usuarios bastante baja.
Ahora construyamos una tabla para comparar directamente el coeficiente MCC frente a la ganancia de información .

Si observamos detenidamente, podemos detectar que el coeficiente MCC es negativo cuando la métrica [% de usuarios devueltos prd] está por debajo del promedio ponderado.
Entonces, utilizando el coeficiente de MCC, logramos clasificar las características del producto en función de su impacto positivo en la retención de usuarios. Además, logramos identificar características del producto que más bien tienen un impacto negativo en la retención de usuarios.