Neredeyse yinelenen satırlar için Gini Endeksi hesaplaması

Aug 16 2020

Veri setimde neredeyse yinelenen satırlar var çünkü kuruluşta ne kadar süre kaldıklarına bağlı olarak her çalışan için birden fazla satır var. Bu nedenle, çalışan Ann'in 3 satırı, Bob'un 2 satırı vs. vardır. Veri setindeki çoğu özellik zamanla değişmez. EmpID'yi ve zamanı bırakıyorum ve diğer özellikler üzerinde bir sınıflandırma yapıyorum.

Bazı özellikler zamanla değişmediği için tekrarlanır. Bazıları, çalışma için alınan 3 yıllık verilerde çalışanın kaç yıldır organizasyonda olduğuna bağlı olarak üç kez, bazıları da iki kez tekrarladı.

Bu, bazıları daha çok kez tekrarlandığı için Gini Endeksi hesaplamasını (veya entropi) olumsuz etkileyecek mi? Bunu yaparak, olmamam gerektiği halde daha uzun süre kalan bir çalışana daha fazla ağırlık mı veriyorum? Örneğin, Ann'in Feature4'ü üç kez yinelenirken, Diane'de yalnızca bir kez vardır. Çalışan başına bir satırım olacak şekilde yuvarlamayı düşünmeli miyim?

Sınıflandırma için Random Forest'ı deniyorum. Gini'nin düğüm seçimi / bölünmesi için kullanıldığına inanıyorum. Bu yüzden sorum.

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

Yanıtlar

1 Simone Aug 17 2020 at 05:12

Burada kullanılan gösterimi kullanacağım: https://stats.stackexchange.com/a/44404/2719

Bu oyuncak veri setini ele alalım:

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

Hesaplayabilirsiniz $\Delta$ her özellik için Gini safsızlığı için: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Buna göre, $Feature4$ daha iyi görünüyor $Feature2$. Dolayısıyla, bir karar ağacı indüksiyon algoritması (Alışveriş Sepeti ve Rastgele Orman dahil) düğümü aşağıdakilere göre bölmeyi seçecektir:$Feature4$

Çoğaltılanı kaldırırsanız, Annbu veri kümesi olur ve$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ $\Delta$ aynıdır, bu da iki özelliğin tahmin gücünün aynı olduğunu gösterir.

Genel olarak, bu tür kopyaları bırakırsanız, $\Delta$ hesaplamalar.