Tính toán Gini Index cho các hàng gần trùng lặp

Aug 16 2020

Tập dữ liệu của tôi có các hàng gần trùng lặp vì có nhiều hàng cho mỗi nhân viên tùy thuộc vào thời gian họ ở lại tổ chức. Do đó, nhân viên Ann có 3 hàng, Bob có 2 hàng, v.v. Hầu hết các tính năng trong tập dữ liệu không thay đổi theo thời gian. Tôi đang bỏ EmpID và thời gian và chạy phân loại trên các tính năng khác.

Vì một số tính năng không thay đổi theo thời gian nên chúng được lặp lại. Một số lặp lại ba lần, một số hai lần tùy thuộc vào số năm nhân viên đã ở trong tổ chức trong dữ liệu 3 năm được lấy cho nghiên cứu.

Điều này có tác động tiêu cực đến việc tính toán Chỉ số Gini (hoặc entropy) vì một số được lặp lại nhiều lần hơn không? Bằng cách này, tôi có đang tạo thêm sức nặng cho một nhân viên đã ở lại lâu hơn khi tôi không nên như vậy không? Ví dụ, Ann có Feature4 lặp lại ba lần trong khi Diane chỉ có một lần. Tôi có nên xem xét cuộn lại để tôi có một hàng cho mỗi nhân viên không?

Tôi đang thử Rừng Ngẫu nhiên để phân loại. Tôi tin rằng Gini được sử dụng để chọn / tách nút. Do đó câu hỏi của tôi.

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

Trả lời

1 Simone Aug 17 2020 at 05:12

Tôi sẽ sử dụng ký hiệu được sử dụng ở đây: https://stats.stackexchange.com/a/44404/2719

Hãy xem xét tập dữ liệu đồ chơi này:

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

Bạn có thể tính toán $\Delta$ đối với tạp chất Gini cho từng tính năng: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Theo điều này, $Feature4$ có vẻ tốt hơn $Feature2$. Do đó, thuật toán quy nạp cây quyết định (bao gồm Giỏ hàng và Rừng ngẫu nhiên) sẽ chọn tách nút dựa trên$Feature4$

Nếu bạn xóa phần trùng lặp, Annđây sẽ là tập dữ liệu và$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ Các $\Delta$ giống nhau, có nghĩa là khả năng dự đoán của hai tính năng là như nhau.

Nói chung, nếu bạn để lại các bản sao như vậy, nó sẽ làm rối tung $\Delta$ tính toán.