Tính toán Gini Index cho các hàng gần trùng lặp
Tập dữ liệu của tôi có các hàng gần trùng lặp vì có nhiều hàng cho mỗi nhân viên tùy thuộc vào thời gian họ ở lại tổ chức. Do đó, nhân viên Ann có 3 hàng, Bob có 2 hàng, v.v. Hầu hết các tính năng trong tập dữ liệu không thay đổi theo thời gian. Tôi đang bỏ EmpID và thời gian và chạy phân loại trên các tính năng khác.
Vì một số tính năng không thay đổi theo thời gian nên chúng được lặp lại. Một số lặp lại ba lần, một số hai lần tùy thuộc vào số năm nhân viên đã ở trong tổ chức trong dữ liệu 3 năm được lấy cho nghiên cứu.
Điều này có tác động tiêu cực đến việc tính toán Chỉ số Gini (hoặc entropy) vì một số được lặp lại nhiều lần hơn không? Bằng cách này, tôi có đang tạo thêm sức nặng cho một nhân viên đã ở lại lâu hơn khi tôi không nên như vậy không? Ví dụ, Ann có Feature4 lặp lại ba lần trong khi Diane chỉ có một lần. Tôi có nên xem xét cuộn lại để tôi có một hàng cho mỗi nhân viên không?
Tôi đang thử Rừng Ngẫu nhiên để phân loại. Tôi tin rằng Gini được sử dụng để chọn / tách nút. Do đó câu hỏi của tôi.
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
Trả lời
Tôi sẽ sử dụng ký hiệu được sử dụng ở đây: https://stats.stackexchange.com/a/44404/2719
Hãy xem xét tập dữ liệu đồ chơi này:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
Bạn có thể tính toán $\Delta$ đối với tạp chất Gini cho từng tính năng: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Theo điều này, $Feature4$ có vẻ tốt hơn $Feature2$. Do đó, thuật toán quy nạp cây quyết định (bao gồm Giỏ hàng và Rừng ngẫu nhiên) sẽ chọn tách nút dựa trên$Feature4$
Nếu bạn xóa phần trùng lặp, Ann
đây sẽ là tập dữ liệu và$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ Các $\Delta$ giống nhau, có nghĩa là khả năng dự đoán của hai tính năng là như nhau.
Nói chung, nếu bạn để lại các bản sao như vậy, nó sẽ làm rối tung $\Delta$ tính toán.