Mergulho profundo na retenção de recursos do produto — coeficiente MCC
Da última vez, usamos a métrica de ganho de informações para classificar os recursos do produto com base em seu impacto na retenção de usuários.
O ganho de informação é uma abordagem bastante robusta e útil que é usada no algoritmo ML, que é chamado de árvore de decisão . Isso ajuda a quantificar o quão bem cada recurso do produto separa os usuários em 2 grupos: retidos e cancelados.
Como mencionei em um post anterior, quando queremos avaliar o impacto das características do produto na retenção, precisamos levar em consideração os dois casos:
- % usa quem usou o recurso e manteve
- % de usuários que não usaram o futuro e não retiveram
Voltemos ao feature18 que mencionei no post anterior.

feature18 tem o 3º maior ganho de informação (0,0139) , mas se olharmos com atenção veremos:
- os usuários que usaram o recurso 18 têm retenção de usuários = 7,4%
- os usuários que não usaram o recurso18 têm retenção de usuários = 19,9%
Do ponto de vista do ML, tudo bem, mas do ponto de vista da análise do produto, não queremos classificar os recursos do produto usando quais usuários provavelmente retornarão ao produto em vez de não retornarem.
Para superar esse problema, recomendo usar o coeficiente MCC . Este coeficiente é um coeficiente de correlação para duas variáveis binárias.
Existem várias variantes de cálculo do MCC, mas prefiro usar esta:

Então, vamos calcular o coeficiente MCC e visualizá-lo.

O gráfico acima nos dá alguns insights muito interessantes:
- feature18 e alguns outros têm um valor negativo .
- muitos recursos de produtos populares (usados por muitos usuários) têm um impacto negativo na retenção.
Nada de errado com esses recursos populares. Eles são algum tipo de recursos de configuração. Os usuários os usaram para configurar o produto durante a 'integração'.
Como esses recursos do produto aparecem no topo do funil (onde há muitos usuários com baixa intenção), eles têm uma retenção de usuários bastante baixa.
Agora vamos construir uma tabela para comparar diretamente o coeficiente MCC vs o ganho de informação .

Se olharmos com atenção, podemos identificar que o coeficiente MCC é negativo quando a métrica [% de usuários retornados prd] está abaixo da média ponderada.
Assim, usando o coeficiente MCC , conseguimos classificar os recursos do produto com base em seu impacto positivo na retenção de usuários. Além disso, conseguimos identificar características do produto que impactam negativamente na retenção de usuários.