Penyelaman mendalam retensi fitur produk — Koefisien PKS

Nov 25 2022
Terakhir kali kami menggunakan metrik Perolehan informasi untuk memberi peringkat fitur produk berdasarkan dampaknya terhadap retensi pengguna. Penguatan informasi adalah pendekatan yang cukup kuat dan berguna yang digunakan dalam algoritme ML yang disebut pohon keputusan.

Terakhir kali kami menggunakan metrik Perolehan informasi untuk memberi peringkat fitur produk berdasarkan dampaknya terhadap retensi pengguna.

Perolehan informasi adalah pendekatan yang cukup kuat dan berguna yang digunakan dalam algoritme ML yang disebut pohon keputusan . Ini membantu untuk mengukur seberapa baik setiap fitur produk memisahkan pengguna menjadi 2 grup: dipertahankan dan diaduk.

Seperti yang saya sebutkan di posting sebelumnya ketika kami ingin menilai dampak fitur produk pada retensi, kami perlu mempertimbangkan kedua kasus:

  • % pengguna yang menggunakan fitur dan dipertahankan
  • % pengguna yang tidak menggunakan masa depan dan tidak dipertahankan

Mari kembali ke feature18 yang sudah saya sebutkan di postingan sebelumnya.

feature18 — Perolehan informasi.

feature18 memiliki Information gain tertinggi ke-3 (0.0139) , tetapi jika kita perhatikan dengan teliti kita akan melihat:

  • pengguna yang menggunakan feature18 memiliki retensi pengguna = 7,4%
  • pengguna yang tidak menggunakan feature18 memiliki retensi pengguna = 19,9%

Dari perspektif ML tidak apa-apa, tetapi dari perspektif analitik produk, ini bukan karena kami ingin memberi peringkat fitur produk yang digunakan pengguna yang kemungkinan besar kembali ke produk daripada tidak dikembalikan.

Untuk mengatasi masalah ini, saya sarankan menggunakan koefisien PKS . Koefisien ini merupakan koefisien korelasi untuk dua variabel biner.

Ada beberapa varian perhitungan PKS, tapi saya lebih suka menggunakan yang ini:

Perhitungan koefisien PKS

Jadi, mari kita hitung koefisien MCC dan memvisualisasikannya.

Koefisien PKS vs Perolehan informasi.

Bagan di atas memberi kita beberapa wawasan yang sangat menarik:

  1. feature18 dan beberapa lainnya memiliki nilai negatif .
  2. banyak fitur produk populer (digunakan oleh banyak pengguna) berdampak negatif pada retensi.

Tidak ada yang salah dengan fitur-fitur populer tersebut. Mereka adalah semacam fitur pengaturan. Pengguna menggunakannya untuk mengonfigurasi produk selama 'onboarding'.

Karena fitur produk ini muncul di bagian atas corong (di mana terdapat banyak pengguna dengan niat rendah), mereka memiliki retensi pengguna yang agak rendah.

Sekarang mari kita buat tabel untuk membandingkan secara langsung koefisien MCC vs Information gain .

peringkat fitur produk.

Jika kita perhatikan dengan teliti, kita dapat melihat bahwa koefisien PKS negatif ketika metrik [% pengguna yang dikembalikan prd] berada di bawah rata-rata tertimbang.

Jadi, dengan menggunakan koefisien MCC , kami berhasil mengurutkan fitur produk berdasarkan dampak positifnya terhadap retensi pengguna. Selain itu, kami berhasil mengidentifikasi fitur produk yang berdampak negatif pada retensi pengguna.