Глубокое погружение в сохранение свойств продукта — коэффициент MCC

Nov 25 2022
В прошлый раз мы использовали метрику получения информации, чтобы ранжировать функции продукта на основе их влияния на удержание пользователей. Получение информации — довольно надежный и полезный подход, который используется в алгоритме ML, который называется деревом решений.

В прошлый раз мы использовали метрику получения информации, чтобы ранжировать функции продукта на основе их влияния на удержание пользователей.

Получение информации — довольно надежный и полезный подход, который используется в алгоритме ML, называемом деревом решений . Это помогает количественно оценить, насколько хорошо каждая функция продукта разделяет пользователей на 2 группы: удержанных и ушедших.

Как я упоминал в предыдущем посте , когда мы хотим оценить влияние функций продукта на удержание, мы должны учитывать оба случая:

  • % использует, кто использовал функцию и сохранил
  • % пользователей, которые не воспользовались будущим и не удержались

Вернемся к feature18 , о которой я упоминал в предыдущем посте.

feature18 — Прирост информации.

feature18 имеет 3-е место по величине прироста информации (0,0139) , но если мы посмотрим внимательно, то увидим:

  • пользователи, которые использовали функцию 18 , имеют удержание пользователей = 7,4%
  • пользователи, которые не использовали функцию 18 , удерживают пользователей = 19,9%

С точки зрения машинного обучения это совершенно нормально, но с точки зрения продуктовой аналитики это не так, потому что мы хотим ранжировать функции продукта, используя которые пользователи, скорее всего, вернутся к продукту, а не не вернутся.

Чтобы преодолеть эту проблему, я рекомендую использовать коэффициент MCC . Этот коэффициент является коэффициентом корреляции для двух бинарных переменных.

Есть несколько вариантов расчета МСС, но я предпочитаю использовать этот:

Расчет коэффициента МСС

Итак, давайте рассчитаем коэффициент MCC и визуализируем его.

Коэффициент MCC против прироста информации.

Диаграмма выше дает нам несколько очень интересных идей:

  1. feature18 и некоторые другие имеют отрицательное значение.
  2. многие популярные функции продукта (используемые большим количеством пользователей) негативно сказываются на удержании.

В этих популярных функциях нет ничего плохого. Это какие-то особенности настройки. Пользователи использовали их для настройки продукта во время «онбординга».

Поскольку эти функции продукта появляются в верхней части воронки (где много пользователей с низким намерением), у них довольно низкое удержание пользователей.

Теперь давайте построим таблицу для непосредственного сравнения коэффициента MCC с приростом информации .

ранжирование характеристик продукта.

Если внимательно присмотреться, то можно заметить, что коэффициент MCC отрицательный, когда показатель [% возвращенных пользователей prd] ниже средневзвешенного значения.

Итак, с помощью коэффициента MCC нам удалось ранжировать функции продукта по их положительному влиянию на удержание пользователей. Более того, нам удалось выявить функции продукта, которые скорее негативно сказываются на удержании пользователей.