Cálculo del índice de Gini para filas casi duplicadas

Aug 16 2020

Mi conjunto de datos tiene filas casi duplicadas porque hay varias filas para cada empleado según el tiempo que hayan permanecido en la organización. Por lo tanto, la empleada Ann tiene 3 filas, Bob tiene 2 filas, etc. La mayoría de las características del conjunto de datos no cambian con el tiempo. Estoy eliminando el EmpID y el tiempo y estoy ejecutando una clasificación en las otras características.

Dado que algunas funciones no cambian con el tiempo, se repiten. Algunos se repitieron tres veces, otros dos, dependiendo de cuántos años haya estado el empleado en la organización en los 3 años de datos tomados para el estudio.

¿Esto afectará negativamente el cálculo del índice de Gini (o la entropía), ya que algunos se repiten más veces? Al hacer esto, ¿le doy más peso a un empleado que se ha quedado más tiempo cuando yo no debería? Por ejemplo, Ann ha repetido Feature4 tres veces, mientras que Diane solo lo ha hecho una vez. ¿Debería considerar enrollarme de modo que tenga una fila por empleado?

Estoy probando Random Forest para la clasificación. Creo que Gini se usa para la selección / división de nodos. De ahí mi pregunta.

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

Respuestas

1 Simone Aug 17 2020 at 05:12

Usaré la notación utilizada aquí: https://stats.stackexchange.com/a/44404/2719

Consideremos este conjunto de datos de juguetes:

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

Puede calcular el $\Delta$ para la impureza de Gini para cada característica: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ De acuerdo a esto, $Feature4$ parece ser mejor que $Feature2$. Por lo tanto, un algoritmo de inducción de árbol de decisión (incluidos Cart y Random Forest) elegiría dividir el nodo en función de$Feature4$

Si elimina el duplicado, Anneste será el conjunto de datos y el$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ los $\Delta$ son los mismos, lo que implica que el poder de predicción de las dos características es el mismo.

En general, si deja estos duplicados, se estropearía el $\Delta$ cálculos.