क्रेडिट कार्ड फ्रॉड डिटेक्शन: ए हैंड्स-ऑन प्रोजेक्ट
खोज करना:
- क्रेडिट कार्ड धोखाधड़ी का पता लगाने के महत्व को समझना
- प्रोजेक्ट के लिए "क्रेडिट कार्ड फ्रॉड डिटेक्शन" डेटासेट का परिचय
- मजबूत धोखाधड़ी जांच मॉडल का निर्माण
- मॉडल के प्रदर्शन का मूल्यांकन
- मॉडल परिणामों की व्याख्या और विश्लेषण
विश्व भुगतान रिपोर्ट 2022 में गैर-नकद लेन-देन की तीव्र वृद्धि और बी2बी भुगतान मूल्य श्रृंखलाओं और छोटे और मध्यम व्यवसायों के महत्व पर प्रकाश डाला गया है। इसके अलावा, यह उम्मीद की जाती है कि भविष्य के वर्षों में गैर-नकदी लेनदेन में नीचे के रूप में लगातार वृद्धि होगी
हालांकि यह आशाजनक प्रतीत हो सकता है, कपटपूर्ण लेनदेन भी बढ़े हैं। EMV स्मार्ट चिप्स के लागू होने के बावजूद, क्रेडिट कार्ड धोखाधड़ी के कारण अभी भी काफी धनराशि का नुकसान हो रहा है।
हम जोखिम को कैसे कम कर सकते हैं? हालांकि घाटे को कम करने और धोखाधड़ी को रोकने के लिए कई तकनीकें हैं, मैं आपको अपने दृष्टिकोण के माध्यम से मार्गदर्शन करूंगा और अपनी खोजों को साझा करूंगा।
I. डेटासेट के बारे में
कागल पर " क्रेडिट कार्ड फ्रॉड डिटेक्शन " डेटासेट एक अत्यधिक असंतुलित डेटासेट है जिसमें यूरोपीय कार्डधारकों द्वारा सितंबर 2013 में क्रेडिट कार्ड द्वारा किए गए लेनदेन शामिल हैं। डेटासेट में कुल 284,807 लेनदेन शामिल हैं, जिनमें से केवल 492 कपटपूर्ण हैं, जिससे डेटासेट अत्यधिक असंतुलित हो जाता है। डेटासेट में 28 विशेषताएं शामिल हैं, जो संवेदनशील जानकारी की गोपनीयता बनाए रखने के लिए पीसीए परिवर्तन द्वारा प्राप्त संख्यात्मक मान हैं। इस डेटासेट का उद्देश्य एक ऐसा मॉडल बनाना है जो वास्तविक समय में धोखाधड़ी गतिविधि को रोकने और कार्डधारकों और बैंकों द्वारा किए गए नुकसान को कम करने के लिए धोखाधड़ी लेनदेन का सटीक पता लगा सके। असंतुलित डेटासेट से निपटने के लिए विभिन्न वर्गीकरण एल्गोरिदम और तकनीकों का मूल्यांकन करने के लिए मशीन लर्निंग रिसर्च में इस डेटासेट का व्यापक रूप से उपयोग किया गया है।
द्वितीय। अन्वेषणात्मक डेटा विश्लेषण
अब उपलब्ध डेटा के साथ, आइए Time
, Amount
, और Class
कॉलम पर कुछ जाँच करें।
एक बार
कथानक से, हम यह देख सकते हैं कि समय सुविधा में दो शिखरों के साथ एक द्विपक्षीय वितरण है, यह दर्शाता है कि दिन के दौरान दो अवधियाँ होती हैं जब क्रेडिट कार्ड लेनदेन अधिक बार होते हैं। पहला शिखर लगभग 50,000 सेकंड (लगभग 14 घंटे) पर होता है, जबकि दूसरा शिखर लगभग 120,000 सेकंड (लगभग 33 घंटे) पर होता है। इससे पता चलता है कि क्रेडिट कार्ड लेनदेन के समय में एक पैटर्न हो सकता है जो धोखाधड़ी का पता लगाने के लिए उपयोगी हो सकता है।
2. राशि
कथानक से, हम देख सकते हैं कि राशि विशेषता का वितरण दाईं ओर अत्यधिक तिरछा है, जिसमें दाईं ओर एक लंबी पूंछ है। यह इंगित करता है कि अधिकांश लेन-देन की मात्रा कम है, जबकि कुछ लेन-देन की मात्रा बहुत अधिक है। नतीजतन, यह बताता है कि लेन-देन की मात्रा के संदर्भ में डेटासेट में कुछ आउटलेयर हैं। इसलिए, धोखाधड़ी का पता लगाने के लिए एक मॉडल बनाते समय, फीचर में आउटलेयर को संभालना आवश्यक हो सकता है Amount
, उदाहरण के लिए, लॉग परिवर्तन या मजबूत सांख्यिकीय विधियों का उपयोग करके।
3. श्रेणी (धोखाधड़ी | गैर-धोखाधड़ी)
कथानक से, हम देख सकते हैं कि डेटासेट अत्यधिक असंतुलित है, जिसमें अधिकांश लेन-देन गैर-धोखाधड़ी (वर्ग 0) और अपेक्षाकृत कम संख्या में लेन-देन कपटपूर्ण (वर्ग 1) हैं। यह इंगित करता है कि डेटासेट में वर्ग असंतुलन की समस्या है, जो इस डेटासेट पर प्रशिक्षित मॉडल के प्रदर्शन को प्रभावित कर सकती है। धोखाधड़ी का पता लगाने के लिए एक मॉडल बनाते समय वर्ग असंतुलन की समस्या को संभालने के लिए ओवरसैंपलिंग, अंडरसैंपलिंग या क्लास वेटिंग जैसी तकनीकों का उपयोग करना आवश्यक हो सकता है।
तृतीय। डाटा प्रासेसिंग
यह सुनिश्चित करने के लिए कि डेटा में कोई महत्वपूर्ण समरूपता नहीं थी, हीटमैप का उपयोग किया गया था।
हीटमैप से, यह देखा जा सकता है कि डेटासेट में चर के किसी भी जोड़े के बीच कोई मजबूत सकारात्मक या नकारात्मक संबंध नहीं है। सबसे मजबूत सहसंबंध पाए जाते हैं:
- समय और V3, -0.42 के सहसंबंध गुणांक के साथ
- राशि और V2, -0.53 के सहसंबंध गुणांक के साथ
- राशि और V4, 0.4 के सहसंबंध गुणांक के साथ।
चतुर्थ। मोडलिंग
" क्रेडिट कार्ड फ्रॉड डिटेक्शन " डेटासेट में क्रेडिट कार्ड लेनदेन को धोखाधड़ी या नहीं के रूप में लेबल किया गया है। डेटासेट असंतुलित है, इसलिए इसे एक ऐसे मॉडल की आवश्यकता है जो गैर-धोखाधड़ी लेनदेन को गलत तरीके से चिह्नित किए बिना धोखाधड़ी वाले लेनदेन का सटीक पता लगा सके।
वर्गीकरण की समस्याओं में मदद करने के लिए, StandardScaler डेटा को 0 का माध्य और 1 का मानक विचलन देकर मानकीकृत करता है, जिसके परिणामस्वरूप एक सामान्य वितरण होता है। मात्रा और समय की एक विस्तृत श्रृंखला के साथ काम करते समय यह तकनीक अच्छी तरह से काम करती है। डेटा को स्केल करने के लिए, फिट को इनिशियलाइज़ करने के लिए ट्रेनिंग सेट का उपयोग किया जाता है, और ट्रेन, वैलिडेशन और टेस्ट सेट को मॉडल में चलाने से पहले स्केल किया जाता है।
प्रशिक्षण के लिए डेटासेट को 60%, सत्यापन के लिए 20% और परीक्षण के लिए 20% में विभाजित किया गया था । असंतुलित डेटासेट को संतुलित करने के लिए, धोखाधड़ी वाले लेनदेन की संख्या का मिलान करने के लिए रैंडम अंडरसैंपलिंग का उपयोग किया गया था। लॉजिस्टिक रिग्रेशन और रैंडम फ़ॉरेस्ट मॉडल का उपयोग किया गया और अच्छे परिणाम प्राप्त हुए।
"क्रेडिट कार्ड फ्रॉड डिटेक्शन" डेटासेट के लिए आमतौर पर इस्तेमाल किए जाने वाले मॉडल लॉजिस्टिक रिग्रेशन, नेव बेयस, रैंडम फ़ॉरेस्ट और डमी क्लासिफायर हैं।
- लॉजिस्टिक रिग्रेशन व्यापक रूप से धोखाधड़ी का पता लगाने के लिए उपयोग किया जाता है क्योंकि इसकी व्याख्या और बड़े डेटासेट को संभालने की क्षमता होती है।
- Naive Bayes का आमतौर पर धोखाधड़ी का पता लगाने के लिए उपयोग किया जाता है क्योंकि यह बड़ी संख्या में सुविधाओं के साथ डेटासेट को संभाल सकता है और तेजी से पूर्वानुमान प्रदान कर सकता है।
- रैंडम फ़ॉरेस्ट का उपयोग आमतौर पर धोखाधड़ी का पता लगाने के लिए किया जाता है क्योंकि यह जटिल डेटासेट को संभाल सकता है और इसमें ओवरफिटिंग का खतरा कम होता है।
- डमी वर्गीकारक एक सरल एल्गोरिद्म है जिसका उपयोग अन्य मॉडलों के प्रदर्शन की तुलना करने के लिए बेंचमार्क के रूप में किया जाता है।
वी। मॉडल मूल्यांकन
यह खंड निम्नलिखित मेट्रिक्स पर चर्चा करेगा: सटीकता, रिकॉल, सटीक और F1 स्कोर।
- सटीकता मॉडल द्वारा की जाने वाली सही भविष्यवाणियों का अंश है। हालांकि, असंतुलित डेटासेट के लिए यह भ्रामक हो सकता है।
- रिकॉल हमें बताता है कि मॉडल ने कितने प्रतिशत धोखाधड़ी वाले लेनदेन की सही पहचान की है। सबसे अच्छे मॉडल में, रिकॉल 89.9% है, जो एक अच्छा शुरुआती बिंदु है।
- सूक्ष्मता हमें बताती है कि अनुमानित कपटपूर्ण लेन-देन का कितना प्रतिशत वास्तव में कपटपूर्ण था। सबसे अच्छे मॉडल में, सभी धोखाधड़ी वाले लेनदेन का 97.8% कब्जा कर लिया गया, जो एक अच्छा मीट्रिक है।
- F1 स्कोर झूठी सकारात्मकता और झूठी नकारात्मकताओं को ध्यान में रखते हुए, दो के भारित औसत के रूप में एक मीट्रिक में रिकॉल और प्रेसिजन को जोड़ता है। यह असंतुलित वर्गों के लिए सटीकता से कहीं अधिक प्रभावी है।
1. आरओसी स्कोर
आरओसी विभिन्न स्तरों पर वर्गीकरण प्रदर्शन को मापता है। एक उच्च एयूसी स्कोर (वक्र के नीचे का क्षेत्र) का अर्थ है कि मॉडल धोखाधड़ी/गैर-धोखाधड़ी की भविष्यवाणी करने में बेहतर है।
आरओसी वक्र: विपणन में धोखाधड़ी का पता लगाने के लिए एक शक्तिशाली उपकरणग्राफ रसद प्रतिगमन और यादृच्छिक वन के लिए एयूसी स्कोर दिखाता है। उच्च अंक अच्छे हैं। वक्र पर बिंदु दहलीज का प्रतिनिधित्व करते हैं। दाहिनी ओर चलना अधिक ट्रू पॉज़िटिव को कैप्चर करता है, लेकिन अधिक फ़ॉल्स पॉज़िटिव को भी। लॉजिस्टिक रिग्रेशन के लिए आदर्श थ्रेसहोल्ड 0.842 और रैंडम फ़ॉरेस्ट के लिए 0.421 हैं। इन सीमाओं पर, हम झूठी सकारात्मकता को कम रखते हुए धोखाधड़ी वाले लेन-देन की इष्टतम राशि प्राप्त करते हैं। कन्फ्यूजन मैट्रिक्स प्रत्येक मॉडल के प्रभावों की कल्पना कर सकता है।
2. कन्फ्यूजन मैट्रिक्स - लॉजिस्टिक रिग्रेशन
इस मॉडल ने 98 में से 88 धोखाधड़ी वाले लेन-देन पर कब्जा कर लिया और आउट-ऑफ-नमूना परीक्षण सेट में 0.842 की सीमा का उपयोग करके 1,678 सामान्य लेनदेन को धोखाधड़ी के रूप में चिह्नित किया। यह उन स्थितियों के समान है जब बैंक किसी अन्य राज्य में बिना किसी पूर्व सूचना के कार्ड के उपयोग के बाद एक पुष्टिकरण पाठ भेजता है।
3. कन्फ्यूजन मैट्रिक्स - रैंडम फॉरेस्ट
0.421 की दहलीज पर, रैंडम फ़ॉरेस्ट मॉडल लॉजिस्टिक रिग्रेशन मॉडल के समान प्रदर्शन करता है। यह 98 में से 88 धोखाधड़ी लेनदेन की सही पहचान करता है, लेकिन यह लॉजिस्टिक रिग्रेशन मॉडल की तुलना में धोखाधड़ी के रूप में सामान्य लेनदेन की कमी को भी चिह्नित करता है। कुल मिलाकर, दोनों मॉडलों का प्रदर्शन अच्छा है।
निष्कर्ष
धोखाधड़ी वाले क्रेडिट कार्ड लेनदेन का पता लगाना आज के समाज में महत्वपूर्ण है। कंपनियां इन उदाहरणों को पकड़ने के लिए विभिन्न तरीकों का इस्तेमाल करती हैं, और यह देखना आकर्षक है कि वे इससे कैसे निपटते हैं। विसंगतियों को ढूंढना आनंददायक है, इसलिए इस परियोजना से गुजरना बहुत मजेदार था। मुझे आशा है कि निष्कर्षों को अच्छी तरह समझाया गया था, और पढ़ने के लिए धन्यवाद!
संदर्भ
- कागल परियोजना - यहाँ
- जीथब रेपो - यहाँ
- कागल डेटासेट - यहाँ
- अधिक पढ़ें —
क्रेडिट कार्ड धोखाधड़ी का पता लगाने के लिए प्रतिलिपि प्रस्तुत करने योग्य मशीन लर्निंग — प्रैक्टिकल हैंडबुक
लेख को 50 तालियां दें
मेरे पीछे आओ
माध्यम पर और लेख पढ़ें
सोशल मीडिया पर जुड़ें Github | लिंक्डिन | कागल
#CreditCardFraudDetection #DataScience #Machine Learning #FraudPrevention #DataAnalysis