거의 중복 된 행에 대한 지니 인덱스 계산
내 데이터 세트에는 거의 중복 된 행이 있습니다. 직원이 조직에 머무른 기간에 따라 각 직원에 대해 여러 행이 있기 때문입니다. 따라서 직원 Ann에는 3 개의 행이 있고 Bob에는 2 개의 행이 있습니다. 데이터 세트의 대부분의 기능은 시간이 지나도 변경되지 않습니다. EmpID와 시간을 삭제하고 다른 기능에 대한 분류를 실행하고 있습니다.
일부 기능은 시간이 지나도 변경되지 않으므로 반복됩니다. 일부는 연구를 위해 취한 3 년 데이터에서 직원이 조직에 몇 년 동안 있었는지에 따라 세 번 반복되고 일부는 두 번 반복되었습니다.
일부가 더 많이 반복되므로 지니 지수 계산 (또는 엔트로피)에 부정적인 영향을 미칠까요? 이렇게함으로써 더 오래 머물러서는 안되는 직원에게 더 많은 가중치를 부여하는 것입니까? 예를 들어 Ann은 Feature4가 세 번 반복되고 Diane은 한 번만 있습니다. 직원당 한 행이 있도록 롤업하는 것을 고려해야합니까?
분류를 위해 Random Forest를 시도하고 있습니다. 나는 Gini가 노드 선택 / 분할에 사용된다고 생각합니다. 따라서 내 질문.
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
답변
여기에 사용 된 표기법을 사용하겠습니다. https://stats.stackexchange.com/a/44404/2719
이 장난감 데이터 세트를 고려해 보겠습니다.
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
당신은 계산할 수 있습니다 $\Delta$ 각 기능에 대한 Gini 불순물 : $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ 이것에 따르면 $Feature4$ 보다 나은 것 같다 $Feature2$. 따라서 의사 결정 트리 유도 알고리즘 (카트 및 랜덤 포레스트 포함)은 다음을 기반으로 노드를 분할하도록 선택합니다.$Feature4$
중복 된 항목을 제거 Ann
하면 데이터 세트가되고$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ 그만큼 $\Delta$ 두 특성의 예측력이 동일하다는 것을 의미하는 동일합니다.
일반적으로 이러한 중복을 남겨두면 $\Delta$ 계산.