ข้อมูลเชิงลึกเกี่ยวกับการรักษาคุณลักษณะของผลิตภัณฑ์ — ค่าสัมประสิทธิ์ MCC

Nov 25 2022
ครั้งที่แล้วเราใช้เมตริกการรับข้อมูลเพื่อจัดอันดับคุณลักษณะของผลิตภัณฑ์ตามผลกระทบต่อการรักษาผู้ใช้ การรับข้อมูลเป็นวิธีการที่มีประสิทธิภาพและมีประโยชน์ซึ่งใช้ในอัลกอริทึม ML ซึ่งเรียกว่าแผนผังการตัดสินใจ

ครั้งที่แล้วเราใช้ เมตริก การรับข้อมูลเพื่อจัดอันดับคุณลักษณะของผลิตภัณฑ์ตามผลกระทบต่อการรักษาผู้ใช้

การรับข้อมูลเป็นวิธีที่มีประสิทธิภาพและมีประโยชน์ซึ่งใช้ในอัลกอริทึม ML ซึ่งเรียกว่า แผนผัง การตัดสินใจ ช่วยในการวัดว่าคุณลักษณะของผลิตภัณฑ์แต่ละรายการแยกผู้ใช้ออกเป็น 2 กลุ่มได้ดีเพียงใด ได้แก่ กลุ่มที่คงไว้และเลิกใช้งาน

ดังที่ฉันได้กล่าวไว้ในโพสต์ก่อนหน้านี้เมื่อเราต้องการประเมินผลกระทบของฟีเจอร์ผลิตภัณฑ์ต่อการรักษาผู้ใช้ เราจำเป็นต้องคำนึงถึงทั้งสองกรณี:

  • % ผู้ใช้ที่ใช้คุณสมบัติและเก็บไว้
  • % ผู้ใช้ที่ไม่ได้ใช้ในอนาคตและไม่ได้เก็บไว้

กลับมาที่ฟีเจอร์ 18ที่ผมพูดถึงในโพสต์ที่แล้ว

คุณลักษณะ 18 — การได้รับข้อมูล

คุณลักษณะ 18ได้รับข้อมูลสูงสุดเป็นอันดับ 3 (0.0139)แต่ถ้าเราดูให้ดีเราจะเห็น:

  • ผู้ใช้ที่ใช้ฟีเจอร์ 18มีการรักษาผู้ใช้ = 7.4%
  • ผู้ใช้ที่ไม่ได้ใช้ฟีเจอร์18มีการรักษาผู้ใช้ = 19.9%

จากมุมมองของ ML นั้นถือว่าใช้ได้ แต่จากมุมมองของการวิเคราะห์ผลิตภัณฑ์ ไม่ใช่เพราะเราต้องการจัดอันดับคุณสมบัติของผลิตภัณฑ์โดยพิจารณาจากผู้ใช้ที่มีแนวโน้มที่จะกลับมาที่ผลิตภัณฑ์มากกว่าที่จะไม่ส่งคืน

เพื่อแก้ไขปัญหานี้ ฉันขอแนะนำให้ใช้ค่าสัมประสิทธิ์ MCC ค่าสัมประสิทธิ์นี้เป็น ค่าสัมประสิทธิ์ สหสัมพันธ์สำหรับตัวแปรไบนารีสองตัว

การคำนวณ MCC มีหลายรูปแบบ แต่ฉันต้องการใช้รูปแบบนี้:

การคำนวณค่าสัมประสิทธิ์ MCC

ลองคำนวณค่าสัมประสิทธิ์ MCCและแสดงภาพ

ค่าสัมประสิทธิ์ MCC เทียบกับการรับข้อมูล

แผนภูมิด้านบนให้ข้อมูลเชิงลึกที่น่าสนใจบางประการแก่เรา:

  1. คุณลักษณะ 18 และค่าอื่นๆ มีค่า เป็น ลบ
  2. คุณลักษณะของผลิตภัณฑ์ที่เป็นที่นิยมจำนวนมาก (ใช้โดยผู้ใช้จำนวนมาก) มีผลเสียต่อการรักษาผู้ใช้

ไม่มีอะไรผิดปกติกับคุณสมบัติยอดนิยมเหล่านี้ เป็นคุณสมบัติการตั้งค่าบางประเภท ผู้ใช้ใช้เพื่อกำหนดค่าผลิตภัณฑ์ระหว่าง 'การเริ่มต้นใช้งาน'

เนื่องจากคุณลักษณะของผลิตภัณฑ์เหล่านี้ปรากฏที่ด้านบนสุดของกระบวนการ (ซึ่งมีผู้ใช้จำนวนมากที่มีความตั้งใจต่ำ) จึงมีการรักษาผู้ใช้ค่อนข้างต่ำ

ตอนนี้มาสร้างตารางเพื่อเปรียบเทียบโดยตรงระหว่างค่าสัมประสิทธิ์ MCCเทียบกับข้อมูล ที่ ได้ รับ

การจัดอันดับคุณสมบัติของผลิตภัณฑ์

หากเราดูอย่างระมัดระวัง เราจะพบว่าค่าสัมประสิทธิ์ MCCเป็นค่าลบเมื่อเมตริก [% ผู้ใช้ที่ส่งคืน prd] ต่ำกว่าค่าเฉลี่ยถ่วงน้ำหนัก

ดังนั้น การใช้ค่าสัมประสิทธิ์ MCCเราจึงจัดลำดับคุณลักษณะของผลิตภัณฑ์ตาม ผลกระทบ เชิงบวกต่อการรักษาผู้ใช้ ยิ่งไปกว่านั้น เราจัดการเพื่อระบุคุณสมบัติของผลิตภัณฑ์ที่ค่อนข้าง ส่งผล เสียต่อการรักษาผู้ใช้