पांडा-प्रोफाइलिंग के साथ 2 डेटासेट की तुलना कैसे करें

Nov 25 2022
उन्नत EDA के साथ एक डेटा गुणवत्ता उपयोग मामला
विज़ुअलाइज़ेशन EDA की आधारशिला है। एक नए, अज्ञात डेटासेट का सामना करते समय, दृश्य निरीक्षण हमें उपलब्ध जानकारी का अनुभव प्राप्त करने, डेटा के संबंध में कुछ पैटर्न बनाने और कई मुद्दों का निदान करने की अनुमति देता है जिन्हें हमें संबोधित करने की आवश्यकता हो सकती है।
पांडा-प्रोफाइलिंग तुलना रिपोर्ट (लेखक द्वारा स्क्रीनशॉट)

विज़ुअलाइज़ेशन EDA की आधारशिला है। एक नए, अज्ञात डेटासेट का सामना करते समय, दृश्य निरीक्षण हमें उपलब्ध जानकारी का अनुभव प्राप्त करने, डेटा के संबंध में कुछ पैटर्न बनाने और कई मुद्दों का निदान करने की अनुमति देता है जिन्हें हमें संबोधित करने की आवश्यकता हो सकती है। इस संबंध में, पांडा प्रोफाइलिंग प्रत्येक डेटा वैज्ञानिक के टूल बेल्ट में अनिवार्य स्विस-चाकू रहा है। अपने पिछले लेखों में, मैंने उल्लेख किया है कि समय-श्रृंखला EDA करते समय पांडा प्रोफाइलिंग कैसे सहायक हो सकती है , लेकिन क्या होगा यदि हम दो डेटासेट की तुलना कर सकें?

हममें से कितने लोगों ने डेटा विज्ञान परियोजना का विकास शुरू किया है और यह समझने के लिए संघर्ष कर रहे हैं कि हम अपने डेटा परिवर्तन और इंजीनियरिंग से कितना प्राप्त कर रहे हैं?

और ठीक यही मैं आज के ब्लॉग पोस्ट में शामिल करूंगा - डेटा विज्ञान विकास और डेटा गुणवत्ता सुधार की प्रक्रिया को बढ़ावा देने के लिए EDA कोड की सबसे प्रसिद्ध एकल पंक्ति का लाभ कैसे उठाया जाए। मैं आपको आपकी EDA प्रक्रिया को बढ़ावा देने के लिए पांडा-प्रोफाइलिंग तुलना रिपोर्ट कार्यक्षमता का लाभ उठाने का तरीका बताता हूं और हमारे डेटा पर तेजी से और बेहतर परिवर्तन करने में इसकी क्षमता का वर्णन करता हूं।

इस आलेख में उपयोग किए गए डेटासेट को मिरियम सैंटोस (लाइसेंस: सीसी0: पब्लिक डोमेन ) द्वारा एचसीसी डेटासेट केगले में पाया जा सकता है। इस विशेष उपयोग मामले के लिए, मैंने आपको यह दिखाने के लिए कृत्रिम रूप से कुछ अतिरिक्त डेटा गुणवत्ता के मुद्दों को पेश किया है कि कैसे विज़ुअलाइज़ेशन हमें उनका पता लगाने में मदद कर सकता है और हमें उनके कुशल शमन की दिशा में मार्गदर्शन कर सकता है। गिटहब पर सभी कोड और उदाहरण उपलब्ध हैं और यदि आपको थोड़ा रीफ्रेशर चाहिए, तो अपने पांडा-प्रोफाइलिंग कौशल को धूलने के लिए इस ब्लॉग को जांचना सुनिश्चित करें। तो, हमारे उपयोग के मामले के साथ!

पांडा प्रोफाइलिंग: ईडीए आपकी उंगलियों पर

हम HCC डेटासेट की रूपरेखा तैयार करके और रिपोर्ट में सुझाई गई डेटा गुणवत्ता की समस्याओं की जांच करके शुरुआत करेंगे:

pip install pandas-profiling==3.5.0
    
      

Alerts shown in Pandas Profiling Report (scheenshot by author)

  • डुप्लीकेट : डेटा में 4 डुप्लीकेट पंक्तियां;
  • स्थिरांक : 'O2' में स्थिर मान "999";
  • उच्च सहसम्बन्ध : अत्यधिक सहसंबद्ध के रूप में चिन्हित कई विशेषताएँ;
  • गुम : 'फेरिटिन' में गुम मान।

डुप्लीकेट पंक्तियों को हटाना : डोमेन की प्रकृति के आधार पर, ऐसे रिकॉर्ड हो सकते हैं जिनमें त्रुटि के बिना समान मान हों। हालाँकि, यह देखते हुए कि इस डेटासेट में कुछ विशेषताएं काफी विशिष्ट हैं और किसी व्यक्ति के जैविक माप (जैसे, "हीमोग्लोबिन", "MCV", "एल्ब्यूमिन") को संदर्भित करती हैं, यह संभावना नहीं है कि कई रोगी सभी सुविधाओं के लिए समान सटीक मान रिपोर्ट करते हैं। . आइए इन डुप्लिकेट को डेटा से हटाकर शुरू करें:

अप्रासंगिक विशेषताओं को हटाना : O2 में स्थिर मान भी डेटा में एक वास्तविक असंगति को दर्शाता है और ऐसा लगता है कि मॉडल के विकास के लिए मूल्यवान जानकारी नहीं है। वास्तविक उपयोग परिदृश्यों में, डोमेन या व्यावसायिक विशेषज्ञों के साथ पुनरावृति करना एक अच्छा मानक होगा, लेकिन इस उपयोग उदाहरण के उद्देश्य के लिए, हम आगे बढ़ेंगे और उन्हें विश्लेषण से हटा देंगे:

मिसिंग डेटा इम्प्यूटेशन : HCC डेटासेट भी मिसिंग डेटा के लिए अतिसंवेदनशील लगता है। इस मुद्दे को हल करने का एक सरल तरीका (अधूरे रिकॉर्ड या संपूर्ण सुविधाओं को हटाने से बचने के लिए) डेटा इंप्यूटेशन का सहारा लेना है। हम अनुपस्थित प्रेक्षणों को भरने के लिए माध्य आरोपण का उपयोग करेंगे, क्योंकि यह सांख्यिकीय आरोपण तकनीकों में सबसे आम और सरल है और अक्सर आधारभूत विधि के रूप में कार्य करता है:

साथ-साथ तुलना: आपके डेटा पर तेज और बेहतर पुनरावृत्ति

अब मज़ेदार हिस्से के लिए! अपने डेटासेट में परिवर्तनों के पहले बैच को लागू करने के बाद, हम अपने डेटा की समग्र गुणवत्ता पर उनके प्रभाव का आकलन करने के लिए तैयार हैं। यह वह जगह है जहाँ पांडा-प्रोफाइलिंग तुलना रिपोर्ट कार्यक्षमता काम आती है। नीचे दिया गया कोड दर्शाता है कि कैसे आरंभ किया जाए:

यहां बताया गया है कि तुलना में दोनों रिपोर्ट कैसे दिखाई जाती हैं:

मूल डेटा और रूपांतरित डेटा की तुलना (लेखक द्वारा स्क्रीनकास्ट)

हम अपने डेटासेट ओवरव्यू से तुरंत क्या समझ सकते हैं? परिवर्तित डेटासेट में एक कम स्पष्ट विशेषता ("O2" हटा दी गई थी), 165 अवलोकन (बनाम मूल 171 जिसमें डुप्लिकेट हैं), और कोई लापता मान नहीं है (मूल डेटासेट में 79 लापता टिप्पणियों के विपरीत)।

लेकिन इस परिवर्तन ने हमारे डेटा की गुणवत्ता को कैसे प्रभावित किया है? और वे निर्णय कितने अच्छे थे?

आइए इसमें गहराई से गोता लगाएँ। डुप्लीकेट रिकॉर्ड के संबंध में, ड्रॉप के बाद वेरिएबल वितरण और डेटासेट पैटर्न से संबंधित कोई विशेष प्रभाव नहीं था। लापता मूल्यों का जो आरोप लगाया गया था वह एक अलग कहानी है।

जैसा कि अपेक्षित था, डेटा इंप्यूटेशन किए जाने के बाद कोई लापता अवलोकन नहीं हैं। ध्यान दें कि शून्यता गणना और मैट्रिक्स दोनों डेटा के दोनों संस्करणों के बीच अंतर कैसे दिखाते हैं: रूपांतरित डेटा में, "फेरिटिन" में अब 165 पूर्ण मान हैं, और शून्यता मैट्रिक्स में कोई रिक्त स्थान नहीं पाया जा सकता है।

तुलना रिपोर्ट: लापता मान (लेखक द्वारा स्क्रीनकास्ट)

हालाँकि, हम तुलना रिपोर्ट से कुछ और अनुमान लगा सकते हैं। यदि हम "फेरिटिन" हिस्टोग्राम का निरीक्षण करते हैं, तो हम देखेंगे कि कैसे माध्य के साथ मूल्य लगाने से मूल डेटा वितरण विकृत हो गया है, जो अवांछनीय है।

तुलना रिपोर्ट: फेरिटिन - लगाए गए मान मूल सुविधा वितरण को विकृत करते प्रतीत होते हैं (लेखक द्वारा स्क्रीनशॉट)

यह इंटरैक्शन और सहसंबंधों के विज़ुअलाइज़ेशन के माध्यम से भी देखा जाता है, जहां "फेरिटिन" और शेष सुविधाओं के बीच संबंधों में बेधड़क बातचीत पैटर्न और उच्च सहसंबंध मूल्य उभर कर आते हैं।

तुलना रिपोर्ट: फेरिटिन और आयु के बीच सहभागिता: प्रतिरूपित मान माध्य के अनुरूप एक लंबवत रेखा में दिखाए जाते हैं (लेखक द्वारा स्क्रीनशॉट)
तुलना रिपोर्ट: सहसंबंध - फेरिटिन सहसंबंध मान डेटा प्रतिरूपण के बाद बढ़ने लगते हैं (लेखक द्वारा स्क्रीनशॉट)

इससे पता चलता है कि तुलना रिपोर्ट न केवल डेटा परिवर्तनों के बाद शुरू किए गए अंतरों को उजागर करने के लिए उपयोगी है, बल्कि यह कई दृश्य संकेत प्रदान करती है जो हमें उन परिवर्तनों के बारे में महत्वपूर्ण अंतर्दृष्टि की ओर ले जाती है: इस मामले में, एक अधिक विशिष्ट डेटा इंप्यूटेशन रणनीति पर विचार किया जाना चाहिए। .

अंतिम विचार

इस छोटे से उपयोग मामले में, हमने EDA के दौरान किए गए डेटा परिवर्तनों को उजागर करने और डेटा गुणवत्ता पर उनके प्रभाव का मूल्यांकन करने के लिए एक ही प्रोफाइलिंग रिपोर्ट के भीतर डेटा के दो सेटों की तुलना करने की उपयोगिता को कवर किया है।

फिर भी, इस कार्यक्षमता के अनुप्रयोग अंतहीन हैं, क्योंकि डेटा-केंद्रित समाधानों के लिए सुविधा मूल्यांकन और दृश्य निरीक्षण पर पुनरावृति (पुनः) करने की आवश्यकता महत्वपूर्ण है। ट्रेन , सत्यापन, और परीक्षण सेट वितरण या डेटा गुणवत्ता नियंत्रण की तुलना करने से लेकर अधिक उन्नत उपयोग के मामलों जैसे कि सिंथेटिक डेटा जनरेशन की प्रक्रिया के लिए ।

फैबियाना क्लेमेंटे , वाईडाटा में सीडीओ

बेहतर डेटा के साथ एआई में तेजी लाना।