डुप्लीकेट पंक्तियों के लिए गिनी इंडेक्स गणना
मेरे डेटा सेट में डुप्लिकेट पंक्तियों के पास है क्योंकि संगठन में कितने समय तक रुके हैं, इसके आधार पर प्रत्येक कर्मचारी के लिए कई पंक्तियाँ हैं। इसलिए, कर्मचारी ऐन की 3 पंक्तियाँ हैं, बॉब की 2 पंक्तियाँ हैं आदि। डेटा सेट में अधिकांश सुविधाएँ समय के साथ नहीं बदलती हैं। मैं एम्पिड और समय को छोड़ रहा हूं और अन्य विशेषताओं पर एक वर्गीकरण चला रहा हूं।
चूँकि कुछ सुविधाएँ समय के साथ नहीं बदलती हैं, उन्हें दोहराया जाता है। कुछ ने तीन बार दोहराया, कुछ इस बात पर निर्भर करता है कि कर्मचारी ने अध्ययन के लिए लिए गए 3 साल के आंकड़ों में संगठन में कितने साल रहे हैं।
क्या यह गनी इंडेक्स गणना (या एन्ट्रापी) पर प्रतिकूल प्रभाव डालेगा क्योंकि कुछ को बार-बार अधिक संख्या में दोहराया जाता है? क्या मैं ऐसा करने के लिए एक कर्मचारी को अधिक वजन दे रहा हूं जो मुझे नहीं होना चाहिए? उदाहरण के लिए, एन में फीचर 4 बार दोहराया गया है जबकि डायने में केवल एक बार है। क्या मुझे ऐसा करने पर विचार करना चाहिए, जिससे मेरे पास प्रति कर्मचारी एक पंक्ति हो?
मैं वर्गीकरण के लिए रैंडम फॉरेस्ट की कोशिश कर रहा हूं। मेरा मानना है कि गिनी का उपयोग नोड चयन / विभाजन के लिए किया जाता है। इसलिए मेरा सवाल है।
EmpID time Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Target
Ann 1 Commence Female 20 Ref-Yes 3.6 Good 0
Ann 2 Not Female 21 Ref-Yes 4.0 Good 0
Ann 3 Not Female 22 Ref-Yes 3.2 Good 0
Bob 2 Commence Male 19 Ref-No 2.6 Avg 0
Bob 3 Not Male 20 Ref-No 2.7 Avg 1
Cathy 2 Commence Female 24 Ref-No 1.6 Good 1
Diane 3 Commence Female 37 Ref-Yes 6.6 Very Good 1
जवाब
मैं यहाँ प्रयुक्त संकेतन का उपयोग करूँगा: https://stats.stackexchange.com/a/44404/2719
आइए इस खिलौना के बारे में विचार करें:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
आप गणना कर सकते हैं $\Delta$ प्रत्येक सुविधा के लिए गिन्नी अशुद्धता के लिए: $$ \Delta(Feature2,Target) = 1 - (3/4)^2 - (1/4)^2 - 3/4\Big( 1 - (2/3)^2 - (1/3)^2\Big) - 1/4 \cdot 0 \approx 0.041 $$ $$ \Delta(Feature4,Target) = 1 - (3/4)^2 - (1/4)^2 - 1/2 \cdot 0 - 1/2 \Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.125 $$ इसके अनुसार, $Feature4$ से बेहतर लगती है $Feature2$। इस प्रकार एक निर्णय ट्री इंडक्शन एल्गोरिथम (कार्ट और रैंडम फ़ॉरेस्ट सहित) के आधार पर नोड को विभाजित करने का चयन करेंगे$Feature4$
यदि आप डुप्लिकेट हटाते हैं तो Ann
यह डेटासेट और होगा$\Delta$:
EmpID Feature2 Feature4 Target
Ann Female Ref-Yes 0
Bob Male Ref-No 0
Cathy Female Ref-No 1
$$ \Delta(Feature2,Target) = 1 - (2/3)^2 - (1/3)^2 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) - 1/3 \cdot 0 \approx 0.11 $$ $$ \Delta(Feature4,Target) = 1 - (2/3)^2 - (1/3)^2 - 1/3 \cdot 0 - 2/3\Big( 1 - (1/2)^2 - (1/2)^2\Big) \approx 0.11 $$ $\Delta$ समान हैं, जिसका तात्पर्य है कि दो विशेषता की भविष्यवाणी शक्ति समान है।
सामान्य तौर पर, यदि आप ऐसे डुप्लिकेट को छोड़ देते हैं तो यह गड़बड़ हो जाएगा $\Delta$ गणना।