Neredeyse yinelenen satırlar için Gini Endeksi hesaplaması
Veri setimde neredeyse yinelenen satırlar var çünkü kuruluşta ne kadar süre kaldıklarına bağlı olarak her çalışan için birden fazla satır var. Bu nedenle, çalışan Ann'in 3 satırı, Bob'un 2 satırı vs. vardır. Veri setindeki çoğu özellik zamanla değişmez. EmpID'yi ve zamanı bırakıyorum ve diğer özellikler üzerinde bir sınıflandırma yapıyorum.
Bazı özellikler zamanla değişmediği için tekrarlanır. Bazıları, çalışma için alınan 3 yıllık verilerde çalışanın kaç yıldır organizasyonda olduğuna bağlı olarak üç kez, bazıları da iki kez tekrarladı.
Bu, bazıları daha çok kez tekrarlandığı için Gini Endeksi hesaplamasını (veya entropi) olumsuz etkileyecek mi? Bunu yaparak, olmamam gerektiği halde daha uzun süre kalan bir çalışana daha fazla ağırlık mı veriyorum? Örneğin, Ann'in Feature4'ü üç kez yinelenirken, Diane'de yalnızca bir kez vardır. Çalışan başına bir satırım olacak şekilde yuvarlamayı düşünmeli miyim?
Sınıflandırma için Random Forest'ı deniyorum. Gini'nin düğüm seçimi / bölünmesi için kullanıldığına inanıyorum. Bu yüzden sorum.
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
Yanıtlar
Burada kullanılan gösterimi kullanacağım: https://stats.stackexchange.com/a/44404/2719
Bu oyuncak veri setini ele alalım:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
Hesaplayabilirsiniz $\Delta$ her özellik için Gini safsızlığı için: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Buna göre, $Feature4$ daha iyi görünüyor $Feature2$. Dolayısıyla, bir karar ağacı indüksiyon algoritması (Alışveriş Sepeti ve Rastgele Orman dahil) düğümü aşağıdakilere göre bölmeyi seçecektir:$Feature4$
Çoğaltılanı kaldırırsanız, Ann
bu veri kümesi olur ve$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ $\Delta$ aynıdır, bu da iki özelliğin tahmin gücünün aynı olduğunu gösterir.
Genel olarak, bu tür kopyaları bırakırsanız, $\Delta$ hesaplamalar.