डुप्लीकेट पंक्तियों के लिए गिनी इंडेक्स गणना

Aug 16 2020

मेरे डेटा सेट में डुप्लिकेट पंक्तियों के पास है क्योंकि संगठन में कितने समय तक रुके हैं, इसके आधार पर प्रत्येक कर्मचारी के लिए कई पंक्तियाँ हैं। इसलिए, कर्मचारी ऐन की 3 पंक्तियाँ हैं, बॉब की 2 पंक्तियाँ हैं आदि। डेटा सेट में अधिकांश सुविधाएँ समय के साथ नहीं बदलती हैं। मैं एम्पिड और समय को छोड़ रहा हूं और अन्य विशेषताओं पर एक वर्गीकरण चला रहा हूं।

चूँकि कुछ सुविधाएँ समय के साथ नहीं बदलती हैं, उन्हें दोहराया जाता है। कुछ ने तीन बार दोहराया, कुछ इस बात पर निर्भर करता है कि कर्मचारी ने अध्ययन के लिए लिए गए 3 साल के आंकड़ों में संगठन में कितने साल रहे हैं।

क्या यह गनी इंडेक्स गणना (या एन्ट्रापी) पर प्रतिकूल प्रभाव डालेगा क्योंकि कुछ को बार-बार अधिक संख्या में दोहराया जाता है? क्या मैं ऐसा करने के लिए एक कर्मचारी को अधिक वजन दे रहा हूं जो मुझे नहीं होना चाहिए? उदाहरण के लिए, एन में फीचर 4 बार दोहराया गया है जबकि डायने में केवल एक बार है। क्या मुझे ऐसा करने पर विचार करना चाहिए, जिससे मेरे पास प्रति कर्मचारी एक पंक्ति हो?

मैं वर्गीकरण के लिए रैंडम फॉरेस्ट की कोशिश कर रहा हूं। मेरा मानना ​​है कि गिनी का उपयोग नोड चयन / विभाजन के लिए किया जाता है। इसलिए मेरा सवाल है।

EmpID   time  Feature1  Feature2    Feature3  Feature4  Feature5 Feature6 Target   
Ann     1     Commence  Female      20        Ref-Yes   3.6      Good        0  
Ann     2     Not       Female      21        Ref-Yes   4.0      Good        0
Ann     3     Not       Female      22        Ref-Yes   3.2      Good        0
Bob     2     Commence  Male        19        Ref-No    2.6      Avg         0
Bob     3     Not       Male        20        Ref-No    2.7      Avg         1
Cathy   2     Commence  Female      24        Ref-No    1.6      Good        1
Diane   3     Commence  Female      37        Ref-Yes   6.6      Very Good   1

जवाब

1 Simone Aug 17 2020 at 05:12

मैं यहाँ प्रयुक्त संकेतन का उपयोग करूँगा: https://stats.stackexchange.com/a/44404/2719

आइए इस खिलौना के बारे में विचार करें:

EmpID   Feature2    Feature4  Target   
Ann     Female      Ref-Yes   0  
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

आप गणना कर सकते हैं $\Delta$ प्रत्येक सुविधा के लिए गिन्नी अशुद्धता के लिए: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ इसके अनुसार, $Feature4$ से बेहतर लगती है $Feature2$। इस प्रकार एक निर्णय ट्री इंडक्शन एल्गोरिथम (कार्ट और रैंडम फ़ॉरेस्ट सहित) के आधार पर नोड को विभाजित करने का चयन करेंगे$Feature4$

यदि आप डुप्लिकेट हटाते हैं तो Annयह डेटासेट और होगा$\Delta$:

EmpID   Feature2    Feature4  Target     
Ann     Female      Ref-Yes   0
Bob     Male        Ref-No    0
Cathy   Female      Ref-No    1

$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ $\Delta$ समान हैं, जिसका तात्पर्य है कि दो विशेषता की भविष्यवाणी शक्ति समान है।

सामान्य तौर पर, यदि आप ऐसे डुप्लिकेट को छोड़ देते हैं तो यह गड़बड़ हो जाएगा $\Delta$ गणना।