การคำนวณดัชนี Gini สำหรับแถวที่ซ้ำกัน
ชุดข้อมูลของฉันมีแถวที่ซ้ำกันเนื่องจากมีหลายแถวสำหรับพนักงานแต่ละคนขึ้นอยู่กับระยะเวลาที่พวกเขาอยู่ในองค์กร ดังนั้นพนักงานแอนจึงมี 3 แถวบ๊อบมี 2 แถวเป็นต้นคุณสมบัติส่วนใหญ่ในชุดข้อมูลจะไม่เปลี่ยนแปลงเมื่อเวลาผ่านไป ฉันทิ้ง EmpID และเวลาและเรียกใช้การจัดหมวดหมู่ของคุณสมบัติอื่น ๆ
เนื่องจากคุณลักษณะบางอย่างไม่เปลี่ยนแปลงเมื่อเวลาผ่านไปคุณลักษณะเหล่านี้จะถูกทำซ้ำ บางครั้งทำซ้ำสามครั้งบางครั้งสองครั้งขึ้นอยู่กับจำนวนปีที่พนักงานอยู่ในองค์กรในข้อมูล 3 ปีที่นำมาศึกษา
สิ่งนี้จะส่งผลเสียต่อการคำนวณดัชนี Gini (หรือเอนโทรปี) เนื่องจากบางครั้งมีการทำซ้ำหลายครั้งมากขึ้นหรือไม่ การทำเช่นนี้ฉันให้น้ำหนักกับพนักงานที่อยู่นานกว่าในเวลาที่ฉันไม่ควรอยู่หรือเปล่า? ตัวอย่างเช่น Ann มี Feature4 ซ้ำสามครั้งในขณะที่ Diane มีเพียงครั้งเดียว ฉันควรพิจารณาต่อยอดเพื่อให้มีหนึ่งแถวต่อพนักงานหรือไม่
ฉันกำลังลอง Random Forest เพื่อจัดหมวดหมู่ ฉันเชื่อว่า Gini ใช้สำหรับการเลือก / แยกโหนด ดังนั้นคำถามของฉัน
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
คำตอบ
ฉันจะใช้สัญกรณ์ที่ใช้ที่นี่: https://stats.stackexchange.com/a/44404/2719
ลองพิจารณาชุดข้อมูลของเล่นนี้:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
คุณสามารถคำนวณไฟล์ $\Delta$ สำหรับความไม่บริสุทธิ์ของ Gini สำหรับแต่ละคุณสมบัติ: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ ตามนี้ $Feature4$ น่าจะดีกว่า $Feature2$. ดังนั้นอัลกอริธึมการเหนี่ยวนำต้นไม้การตัดสินใจ (รวมถึงรถเข็นและป่าสุ่ม) จะเลือกที่จะแยกโหนดตาม$Feature4$
หากคุณลบรายการที่ซ้ำกันAnn
สิ่งนี้จะเป็นชุดข้อมูลและไฟล์$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ $\Delta$ เหมือนกันซึ่งหมายความว่าพลังการทำนายของคุณสมบัติทั้งสองนั้นเหมือนกัน
โดยทั่วไปหากคุณปล่อยให้ซ้ำกันมันจะทำให้ไฟล์ $\Delta$ การคำนวณ