การคำนวณดัชนี Gini สำหรับแถวที่ซ้ำกัน

Aug 16 2020

ชุดข้อมูลของฉันมีแถวที่ซ้ำกันเนื่องจากมีหลายแถวสำหรับพนักงานแต่ละคนขึ้นอยู่กับระยะเวลาที่พวกเขาอยู่ในองค์กร ดังนั้นพนักงานแอนจึงมี 3 แถวบ๊อบมี 2 แถวเป็นต้นคุณสมบัติส่วนใหญ่ในชุดข้อมูลจะไม่เปลี่ยนแปลงเมื่อเวลาผ่านไป ฉันทิ้ง EmpID และเวลาและเรียกใช้การจัดหมวดหมู่ของคุณสมบัติอื่น ๆ

เนื่องจากคุณลักษณะบางอย่างไม่เปลี่ยนแปลงเมื่อเวลาผ่านไปคุณลักษณะเหล่านี้จะถูกทำซ้ำ บางครั้งทำซ้ำสามครั้งบางครั้งสองครั้งขึ้นอยู่กับจำนวนปีที่พนักงานอยู่ในองค์กรในข้อมูล 3 ปีที่นำมาศึกษา

สิ่งนี้จะส่งผลเสียต่อการคำนวณดัชนี Gini (หรือเอนโทรปี) เนื่องจากบางครั้งมีการทำซ้ำหลายครั้งมากขึ้นหรือไม่ การทำเช่นนี้ฉันให้น้ำหนักกับพนักงานที่อยู่นานกว่าในเวลาที่ฉันไม่ควรอยู่หรือเปล่า? ตัวอย่างเช่น Ann มี Feature4 ซ้ำสามครั้งในขณะที่ Diane มีเพียงครั้งเดียว ฉันควรพิจารณาต่อยอดเพื่อให้มีหนึ่งแถวต่อพนักงานหรือไม่

ฉันกำลังลอง Random Forest เพื่อจัดหมวดหมู่ ฉันเชื่อว่า Gini ใช้สำหรับการเลือก / แยกโหนด ดังนั้นคำถามของฉัน

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

คำตอบ

1 Simone Aug 17 2020 at 05:12

ฉันจะใช้สัญกรณ์ที่ใช้ที่นี่: https://stats.stackexchange.com/a/44404/2719

ลองพิจารณาชุดข้อมูลของเล่นนี้:

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

คุณสามารถคำนวณไฟล์ $\Delta$ สำหรับความไม่บริสุทธิ์ของ Gini สำหรับแต่ละคุณสมบัติ: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ ตามนี้ $Feature4$ น่าจะดีกว่า $Feature2$. ดังนั้นอัลกอริธึมการเหนี่ยวนำต้นไม้การตัดสินใจ (รวมถึงรถเข็นและป่าสุ่ม) จะเลือกที่จะแยกโหนดตาม$Feature4$

หากคุณลบรายการที่ซ้ำกันAnnสิ่งนี้จะเป็นชุดข้อมูลและไฟล์$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ $\Delta$ เหมือนกันซึ่งหมายความว่าพลังการทำนายของคุณสมบัติทั้งสองนั้นเหมือนกัน

โดยทั่วไปหากคุณปล่อยให้ซ้ำกันมันจะทำให้ไฟล์ $\Delta$ การคำนวณ