Глубокое погружение в сохранение свойств продукта — коэффициент MCC
В прошлый раз мы использовали метрику получения информации, чтобы ранжировать функции продукта на основе их влияния на удержание пользователей.
Получение информации — довольно надежный и полезный подход, который используется в алгоритме ML, называемом деревом решений . Это помогает количественно оценить, насколько хорошо каждая функция продукта разделяет пользователей на 2 группы: удержанных и ушедших.
Как я упоминал в предыдущем посте , когда мы хотим оценить влияние функций продукта на удержание, мы должны учитывать оба случая:
- % использует, кто использовал функцию и сохранил
- % пользователей, которые не воспользовались будущим и не удержались
Вернемся к feature18 , о которой я упоминал в предыдущем посте.

feature18 имеет 3-е место по величине прироста информации (0,0139) , но если мы посмотрим внимательно, то увидим:
- пользователи, которые использовали функцию 18 , имеют удержание пользователей = 7,4%
- пользователи, которые не использовали функцию 18 , удерживают пользователей = 19,9%
С точки зрения машинного обучения это совершенно нормально, но с точки зрения продуктовой аналитики это не так, потому что мы хотим ранжировать функции продукта, используя которые пользователи, скорее всего, вернутся к продукту, а не не вернутся.
Чтобы преодолеть эту проблему, я рекомендую использовать коэффициент MCC . Этот коэффициент является коэффициентом корреляции для двух бинарных переменных.
Есть несколько вариантов расчета МСС, но я предпочитаю использовать этот:

Итак, давайте рассчитаем коэффициент MCC и визуализируем его.

Диаграмма выше дает нам несколько очень интересных идей:
- feature18 и некоторые другие имеют отрицательное значение.
- многие популярные функции продукта (используемые большим количеством пользователей) негативно сказываются на удержании.
В этих популярных функциях нет ничего плохого. Это какие-то особенности настройки. Пользователи использовали их для настройки продукта во время «онбординга».
Поскольку эти функции продукта появляются в верхней части воронки (где много пользователей с низким намерением), у них довольно низкое удержание пользователей.
Теперь давайте построим таблицу для непосредственного сравнения коэффициента MCC с приростом информации .

Если внимательно присмотреться, то можно заметить, что коэффициент MCC отрицательный, когда показатель [% возвращенных пользователей prd] ниже средневзвешенного значения.
Итак, с помощью коэффициента MCC нам удалось ранжировать функции продукта по их положительному влиянию на удержание пользователей. Более того, нам удалось выявить функции продукта, которые скорее негативно сказываются на удержании пользователей.