제품 기능 유지 심층 분석 - MCC 계수
지난번 에 사용자 유지에 미치는 영향을 기준으로 제품 기능의 순위를 매기기 위해 정보 획득 지표를 사용했습니다.
정보 획득 은 결정 트리 라고 하는 ML 알고리즘에서 사용되는 매우 강력하고 유용한 접근 방식입니다 . 각 제품 기능이 사용자를 보유 그룹과 이탈 그룹의 두 그룹으로 얼마나 잘 구분하는지 정량화하는 데 도움이 됩니다.
제품 기능이 유지에 미치는 영향을 평가할 때 이전 게시물 에서 언급했듯이 다음 두 가지 경우 를 모두 고려해야 합니다.
- 기능 을 사용 하고 유지 한 사용자 %
- 미래를 사용하지 않고 유지되지 않은 사용자 %
이전 게시물에서 언급한 feature18 로 돌아가 보겠습니다 .

feature18 은 세 번째로 높은 정보 이득(0.0139) 을 가지고 있지만 주의 깊게 살펴보면 다음을 볼 수 있습니다.
- feature18 을 사용한 사용자의 사용자 유지율 = 7.4%
- feature18 을 사용하지 않은 사용자의 사용자 유지율 = 19.9%
ML 관점에서는 완전히 괜찮지만 제품 분석 관점에서는 사용자가 반환되지 않은 것보다 제품으로 다시 돌아올 가능성이 가장 높은 사용자를 사용하여 제품 기능의 순위를 매기려는 것이 아닙니다.
이 문제를 극복하기 위해 MCC 계수 를 사용하는 것이 좋습니다 . 이 계수는 두 이진 변수에 대한 상관 계수입니다.
MCC 계산에는 여러 가지 변형이 있지만 저는 이 방법을 사용하는 것을 선호합니다.

따라서 MCC 계수 를 계산 하고 시각화해 봅시다 .

위의 차트는 몇 가지 매우 흥미로운 통찰력을 제공합니다.
- feature18 및 기타 일부는 음수 값을 갖습니다.
- 많은 인기 제품 기능(많은 사용자가 사용)은 리텐션에 부정적인 영향을 미칩니다.
이러한 인기 있는 기능에는 아무런 문제가 없습니다. 일종의 설정 기능입니다. 사용자는 '온보딩' 중에 제품을 구성하는 데 사용했습니다.
이러한 제품 기능은 깔때기 상단(의도가 낮은 사용자가 많은 곳)에 나타나기 때문에 사용자 유지율이 다소 낮습니다.
이제 MCC 계수 와 정보 이득 을 직접 비교하는 표를 만들어 보겠습니다 .

자세히 살펴보면 측정항목 [% return users prd]이 가중 평균보다 낮을 때 MCC 계수 가 음수임을 알 수 있습니다.
따라서 MCC 계수 를 사용하여 사용자 유지에 대한 긍정적인 영향을 기준으로 제품 기능의 순위를 매겼습니다. 또한 사용자 유지에 부정적인 영향을 미치는 제품 기능을 식별했습니다 .