Tìm hiểu sâu về tính năng sản phẩm — hệ số MCC

Nov 25 2022
Lần trước, chúng tôi đã sử dụng chỉ số Mức tăng thông tin để xếp hạng các tính năng của sản phẩm dựa trên tác động của chúng đối với tỷ lệ giữ chân người dùng. Thu thập thông tin là một cách tiếp cận khá mạnh mẽ và hữu ích được sử dụng trong thuật toán ML được gọi là cây quyết định.

Lần trước, chúng tôi đã sử dụng chỉ số Mức tăng thông tin để xếp hạng các tính năng của sản phẩm dựa trên tác động của chúng đối với tỷ lệ giữ chân người dùng.

Thu thập thông tin là một cách tiếp cận khá mạnh mẽ và hữu ích được sử dụng trong thuật toán ML được gọi là cây quyết định . Nó giúp định lượng mức độ hiệu quả của từng tính năng sản phẩm khi phân tách người dùng thành 2 nhóm: được giữ lại và rời bỏ.

Như tôi đã đề cập trong bài viết trước , khi muốn đánh giá tác động của tính năng sản phẩm đối với tỷ lệ giữ chân, chúng ta cần tính đến cả hai trường hợp:

  • % người dùng đã sử dụng tính năng và giữ lại
  • % người dùng không sử dụng tương lai và không được giữ lại

Hãy trở lại với feature18 mà tôi đã đề cập ở bài viết trước.

tính năng18 — Tăng thông tin.

Feature18Information gain cao thứ 3 (0.0139) , nhưng nếu để ý kỹ chúng ta sẽ thấy:

  • người dùng đã sử dụng tính năng18 có tỷ lệ giữ chân người dùng = 7,4%
  • người dùng không sử dụng tính năng18 có tỷ lệ giữ chân người dùng = 19,9%

Từ góc độ ML, điều đó hoàn toàn ổn, nhưng từ góc độ phân tích sản phẩm, chúng tôi không muốn xếp hạng các tính năng của sản phẩm bằng cách sử dụng tính năng nào mà người dùng có nhiều khả năng quay lại sản phẩm hơn là không quay lại.

Để khắc phục vấn đề này, tôi khuyên bạn nên sử dụng hệ số MCC . Hệ số này là một hệ số tương quan cho hai biến nhị phân.

Có một số biến thể của phép tính MCC, nhưng tôi thích sử dụng biến thể này hơn:

Tính hệ số MCC

Vì vậy, hãy tính hệ số MCC và trực quan hóa nó.

Hệ số MCC vs Mức tăng thông tin.

Biểu đồ trên cho chúng ta một vài hiểu biết rất thú vị:

  1. feature18 và một số khác có giá trị âm .
  2. rất nhiều tính năng phổ biến của sản phẩm (được nhiều người dùng sử dụng) có tác động tiêu cực đến tỷ lệ giữ chân người dùng.

Không có gì sai với các tính năng phổ biến này. Chúng là một số loại tính năng thiết lập. Người dùng đã sử dụng chúng để định cấu hình sản phẩm trong quá trình 'giới thiệu'.

Vì các tính năng sản phẩm này xuất hiện ở đầu kênh (nơi có nhiều người dùng có mục đích thấp), chúng có tỷ lệ giữ chân người dùng khá thấp.

Bây giờ, hãy xây dựng một bảng để so sánh trực tiếp hệ số MCC với Mức tăng thông tin .

xếp hạng tính năng sản phẩm.

Nếu xem xét kỹ, chúng ta có thể phát hiện ra rằng hệ số MCC âm khi chỉ số [% người dùng quay lại prd] thấp hơn mức trung bình có trọng số.

Vì vậy, bằng cách sử dụng hệ số MCC , chúng tôi đã quản lý để xếp hạng các tính năng của sản phẩm dựa trên tác động tích cực của chúng đối với tỷ lệ giữ chân người dùng. Ngoài ra, chúng tôi đã cố gắng xác định các tính năng của sản phẩm có tác động tiêu cực đến tỷ lệ giữ chân người dùng.