Perhitungan Indeks Gini untuk hampir baris duplikat

Aug 16 2020

Kumpulan data saya hampir duplikat baris karena ada beberapa baris untuk setiap karyawan tergantung pada berapa lama mereka telah tinggal di organisasi. Oleh karena itu, karyawan Ann memiliki 3 baris, Bob memiliki 2 baris, dll. Sebagian besar fitur dalam kumpulan data tidak berubah seiring waktu. Saya membuang EmpID dan waktu dan menjalankan klasifikasi pada fitur lainnya.

Karena beberapa fitur tidak berubah seiring waktu, fitur tersebut berulang. Beberapa diulang tiga kali, beberapa dua kali tergantung pada berapa tahun karyawan telah berada di organisasi dalam data 3 tahun yang diambil untuk penelitian.

Apakah hal ini akan berdampak buruk pada penghitungan Indeks Gini (atau entropi) karena beberapa diulang lebih sering? Dengan melakukan ini, apakah saya memberi bobot lebih pada seorang karyawan yang telah tinggal lebih lama padahal seharusnya saya tidak melakukannya? Misalnya, Ann mengulang Feature4 tiga kali sementara Diane hanya sekali. Haruskah saya mempertimbangkan untuk menggulung sehingga saya memiliki satu baris per karyawan?

Saya mencoba Random Forest untuk klasifikasi. Saya yakin Gini digunakan untuk pemilihan / pemisahan node. Oleh karena itu pertanyaan saya.

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

Jawaban

1 Simone Aug 17 2020 at 05:12

Saya akan menggunakan notasi yang digunakan di sini: https://stats.stackexchange.com/a/44404/2719

Mari pertimbangkan kumpulan data mainan ini:

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

Anda dapat menghitung file $\Delta$ untuk ketidakmurnian Gini untuk setiap fitur: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Menurut Ini, $Feature4$ tampaknya lebih baik dari $Feature2$. Jadi, algoritma induksi pohon keputusan (termasuk Cart dan Random Forest) akan memilih untuk membagi node berdasarkan$Feature4$

Jika Anda menghapus duplikat, Annini akan menjadi kumpulan data dan$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ Itu $\Delta$ Sama artinya daya prediksi dari kedua fitur tersebut sama.

Secara umum, jika Anda meninggalkan duplikat seperti itu, itu akan mengacaukan file $\Delta$ perhitungan.