Approfondimento approfondito sulla ritenzione delle caratteristiche del prodotto: coefficiente MCC

Nov 25 2022
L'ultima volta abbiamo utilizzato la metrica Guadagno di informazioni per classificare le funzionalità del prodotto in base al loro impatto sulla fidelizzazione degli utenti. L'acquisizione di informazioni è un approccio piuttosto robusto e utile che viene utilizzato nell'algoritmo ML che è chiamato albero decisionale.

L'ultima volta abbiamo utilizzato la metrica Guadagno di informazioni per classificare le funzionalità del prodotto in base al loro impatto sulla fidelizzazione degli utenti.

L'acquisizione di informazioni è un approccio piuttosto robusto e utile che viene utilizzato nell'algoritmo ML chiamato albero decisionale . Aiuta a quantificare quanto bene ogni caratteristica del prodotto separa gli utenti in 2 gruppi: mantenuti e abbandonati.

Come ho accennato in un post precedente , quando vogliamo valutare l'impatto delle caratteristiche del prodotto sulla fidelizzazione, dobbiamo tenere conto di entrambi i casi:

  • % utilizza chi ha utilizzato la funzione e mantenuto
  • % di utenti che non hanno utilizzato il futuro e non sono stati mantenuti

Torniamo alla feature18 di cui ho parlato nel post precedente.

feature18 — Guadagno di informazioni.

feature18 ha il 3° più alto guadagno di informazioni (0.0139) , ma se guardiamo attentamente vedremo:

  • gli utenti che hanno utilizzato la funzione 18 hanno una fidelizzazione degli utenti = 7,4%
  • gli utenti che non hanno utilizzato la funzione18 hanno una fidelizzazione utenti = 19,9%

Dal punto di vista del machine learning è del tutto OK, ma dal punto di vista dell'analisi del prodotto, non è come vogliamo classificare le caratteristiche del prodotto utilizzando quali utenti molto probabilmente tornano al prodotto piuttosto che non vengono restituiti.

Per ovviare a questo problema, consiglio di utilizzare il coefficiente MCC . Questo coefficiente è un coefficiente di correlazione per due variabili binarie.

Esistono diverse varianti del calcolo MCC, ma preferisco utilizzare questa:

Calcolo del coefficiente MCC

Quindi, calcoliamo il coefficiente MCC e visualizziamolo.

Coefficiente MCC vs guadagno di informazioni.

Il grafico qui sopra ci offre alcuni spunti molto interessanti:

  1. feature18 e alcuni altri hanno un valore negativo .
  2. molte funzionalità di prodotto popolari (utilizzate da molti utenti) hanno un impatto negativo sulla fidelizzazione.

Niente di sbagliato in queste funzionalità popolari. Sono una sorta di funzionalità di configurazione. Gli utenti li hanno utilizzati per configurare il prodotto durante l'"onboarding".

Poiché queste funzionalità del prodotto appaiono nella parte superiore della canalizzazione (dove ci sono molti utenti con scarso intento), hanno una fidelizzazione degli utenti piuttosto bassa.

Ora costruiamo una tabella per confrontare direttamente il coefficiente MCC rispetto all'Information gain .

classificazione delle caratteristiche del prodotto.

Se osserviamo attentamente, possiamo individuare che il coefficiente MCC è negativo quando la metrica [% utenti restituiti prd] è inferiore alla media ponderata.

Quindi, utilizzando il coefficiente MCC siamo riusciti a classificare le caratteristiche del prodotto in base al loro impatto positivo sulla fidelizzazione degli utenti. Inoltre, siamo riusciti a identificare le caratteristiche del prodotto che hanno piuttosto un impatto negativo sulla fidelizzazione degli utenti.