Obliczanie indeksu Giniego dla prawie zduplikowanych wierszy
Mój zestaw danych zawiera prawie zduplikowane wiersze, ponieważ każdy pracownik ma wiele wierszy w zależności od tego, jak długo przebywał w organizacji. Dlatego pracownik Anna ma 3 wiersze, Bob ma 2 wiersze itp. Większość funkcji w zestawie danych nie zmienia się w czasie. Porzucam EmpID i czas i przeprowadzam klasyfikację innych funkcji.
Ponieważ niektóre funkcje nie zmieniają się w czasie, są powtarzane. Niektóre powtórzyły się trzykrotnie, inne dwukrotnie, w zależności od tego, ile lat pracownik był w organizacji w danych z 3 lat wziętych do badania.
Czy wpłynie to niekorzystnie na obliczanie Indeksu Giniego (lub na entropię), ponieważ niektóre z nich są powtarzane więcej razy? Czy w ten sposób przywiązuję większą wagę do pracownika, który został dłużej, podczas gdy ja nie powinienem? Na przykład, Ann powtórzyła Feature4 trzykrotnie, a Diane tylko raz. Czy powinienem rozważyć zwinięcie tak, że mam jeden wiersz na pracownika?
Próbuję Random Forest do klasyfikacji. Uważam, że Gini jest używany do wyboru / podziału węzłów. Stąd moje pytanie.
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
Odpowiedzi
Użyję notacji użytej tutaj: https://stats.stackexchange.com/a/44404/2719
Rozważmy ten zbiór danych zabawki:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
Możesz obliczyć $\Delta$ dla nieczystości Gini dla każdej funkcji: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ Według tego, $Feature4$ wydaje się być lepszy niż $Feature2$. Zatem algorytm indukcji drzewa decyzyjnego (w tym Cart i Random Forest) wybrałby podział węzła na podstawie$Feature4$
Jeśli usuniesz zduplikowane pliki, Ann
będzie to zbiór danych i$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ Plik $\Delta$ są takie same, co oznacza, że moc przewidywania tych dwóch cech jest taka sama.
Ogólnie rzecz biorąc, jeśli zostawisz takie duplikaty, zepsułoby to plik $\Delta$ obliczenia.