Perhitungan Indeks Gini untuk hampir baris duplikat
Kumpulan data saya hampir duplikat baris karena ada beberapa baris untuk setiap karyawan tergantung pada berapa lama mereka telah tinggal di organisasi. Oleh karena itu, karyawan Ann memiliki 3 baris, Bob memiliki 2 baris, dll. Sebagian besar fitur dalam kumpulan data tidak berubah seiring waktu. Saya membuang EmpID dan waktu dan menjalankan klasifikasi pada fitur lainnya.
Karena beberapa fitur tidak berubah seiring waktu, fitur tersebut berulang. Beberapa diulang tiga kali, beberapa dua kali tergantung pada berapa tahun karyawan telah berada di organisasi dalam data 3 tahun yang diambil untuk penelitian.
Apakah hal ini akan berdampak buruk pada penghitungan Indeks Gini (atau entropi) karena beberapa diulang lebih sering? Dengan melakukan ini, apakah saya memberi bobot lebih pada seorang karyawan yang telah tinggal lebih lama padahal seharusnya saya tidak melakukannya? Misalnya, Ann mengulang Feature4 tiga kali sementara Diane hanya sekali. Haruskah saya mempertimbangkan untuk menggulung sehingga saya memiliki satu baris per karyawan?
Saya mencoba Random Forest untuk klasifikasi. Saya yakin Gini digunakan untuk pemilihan / pemisahan node. Oleh karena itu pertanyaan saya.
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
Jawaban
Saya akan menggunakan notasi yang digunakan di sini: https://stats.stackexchange.com/a/44404/2719
Mari pertimbangkan kumpulan data mainan ini:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
Anda dapat menghitung file $\Delta$ untuk ketidakmurnian Gini untuk setiap fitur: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Menurut Ini, $Feature4$ tampaknya lebih baik dari $Feature2$. Jadi, algoritma induksi pohon keputusan (termasuk Cart dan Random Forest) akan memilih untuk membagi node berdasarkan$Feature4$
Jika Anda menghapus duplikat, Ann
ini akan menjadi kumpulan data dan$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ Itu $\Delta$ Sama artinya daya prediksi dari kedua fitur tersebut sama.
Secara umum, jika Anda meninggalkan duplikat seperti itu, itu akan mengacaukan file $\Delta$ perhitungan.