거의 중복 된 행에 대한 지니 인덱스 계산

Aug 16 2020

내 데이터 세트에는 거의 중복 된 행이 있습니다. 직원이 조직에 머무른 기간에 따라 각 직원에 대해 여러 행이 있기 때문입니다. 따라서 직원 Ann에는 3 개의 행이 있고 Bob에는 2 개의 행이 있습니다. 데이터 세트의 대부분의 기능은 시간이 지나도 변경되지 않습니다. EmpID와 시간을 삭제하고 다른 기능에 대한 분류를 실행하고 있습니다.

일부 기능은 시간이 지나도 변경되지 않으므로 반복됩니다. 일부는 연구를 위해 취한 3 년 데이터에서 직원이 조직에 몇 년 동안 있었는지에 따라 세 번 반복되고 일부는 두 번 반복되었습니다.

일부가 더 많이 반복되므로 지니 지수 계산 (또는 엔트로피)에 부정적인 영향을 미칠까요? 이렇게함으로써 더 오래 머물러서는 안되는 직원에게 더 많은 가중치를 부여하는 것입니까? 예를 들어 Ann은 Feature4가 세 번 반복되고 Diane은 한 번만 있습니다. 직원당 한 행이 있도록 롤업하는 것을 고려해야합니까?

분류를 위해 Random Forest를 시도하고 있습니다. 나는 Gini가 노드 선택 / 분할에 사용된다고 생각합니다. 따라서 내 질문.

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

답변

1 Simone Aug 17 2020 at 05:12

여기에 사용 된 표기법을 사용하겠습니다. https://stats.stackexchange.com/a/44404/2719

이 장난감 데이터 세트를 고려해 보겠습니다.

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

당신은 계산할 수 있습니다 $\Delta$ 각 기능에 대한 Gini 불순물 : $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ 이것에 따르면 $Feature4$ 보다 나은 것 같다 $Feature2$. 따라서 의사 결정 트리 유도 알고리즘 (카트 및 랜덤 포레스트 포함)은 다음을 기반으로 노드를 분할하도록 선택합니다.$Feature4$

중복 된 항목을 제거 Ann하면 데이터 세트가되고$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ 그만큼 $\Delta$ 두 특성의 예측력이 동일하다는 것을 의미하는 동일합니다.

일반적으로 이러한 중복을 남겨두면 $\Delta$ 계산.