क्रेडिट कार्ड फ्रॉड डिटेक्शन: ए हैंड्स-ऑन प्रोजेक्ट

May 10 2023
डिस्कवर: विश्व भुगतान रिपोर्ट 2022 में गैर-नकदी लेनदेन के तेजी से विकास और बी2बी भुगतान मूल्य श्रृंखलाओं और छोटे और मध्यम व्यवसायों के महत्व पर प्रकाश डाला गया है। इसके अलावा, यह उम्मीद की जाती है कि भविष्य के वर्षों में गैर-नकदी लेनदेन में लगातार वृद्धि होगी जैसा कि नीचे दिया गया है हालांकि यह आशाजनक लग सकता है, कपटपूर्ण लेनदेन में भी वृद्धि हुई है।

खोज करना:

  • क्रेडिट कार्ड धोखाधड़ी का पता लगाने के महत्व को समझना
  • प्रोजेक्ट के लिए "क्रेडिट कार्ड फ्रॉड डिटेक्शन" डेटासेट का परिचय
  • मजबूत धोखाधड़ी जांच मॉडल का निर्माण
  • मॉडल के प्रदर्शन का मूल्यांकन
  • मॉडल परिणामों की व्याख्या और विश्लेषण

विश्व भुगतान रिपोर्ट 2022 में गैर-नकद लेन-देन की तीव्र वृद्धि और बी2बी भुगतान मूल्य श्रृंखलाओं और छोटे और मध्यम व्यवसायों के महत्व पर प्रकाश डाला गया है। इसके अलावा, यह उम्मीद की जाती है कि भविष्य के वर्षों में गैर-नकदी लेनदेन में नीचे के रूप में लगातार वृद्धि होगी

विश्व भुगतान रिपोर्ट 2022

हालांकि यह आशाजनक प्रतीत हो सकता है, कपटपूर्ण लेनदेन भी बढ़े हैं। EMV स्मार्ट चिप्स के लागू होने के बावजूद, क्रेडिट कार्ड धोखाधड़ी के कारण अभी भी काफी धनराशि का नुकसान हो रहा है।

स्पॉटलाइट: यूएस कार्ड पेमेंट फ्रॉड लॉस फोरकास्ट 2022

हम जोखिम को कैसे कम कर सकते हैं? हालांकि घाटे को कम करने और धोखाधड़ी को रोकने के लिए कई तकनीकें हैं, मैं आपको अपने दृष्टिकोण के माध्यम से मार्गदर्शन करूंगा और अपनी खोजों को साझा करूंगा।

I. डेटासेट के बारे में

कागल पर " क्रेडिट कार्ड फ्रॉड डिटेक्शन " डेटासेट एक अत्यधिक असंतुलित डेटासेट है जिसमें यूरोपीय कार्डधारकों द्वारा सितंबर 2013 में क्रेडिट कार्ड द्वारा किए गए लेनदेन शामिल हैं। डेटासेट में कुल 284,807 लेनदेन शामिल हैं, जिनमें से केवल 492 कपटपूर्ण हैं, जिससे डेटासेट अत्यधिक असंतुलित हो जाता है। डेटासेट में 28 विशेषताएं शामिल हैं, जो संवेदनशील जानकारी की गोपनीयता बनाए रखने के लिए पीसीए परिवर्तन द्वारा प्राप्त संख्यात्मक मान हैं। इस डेटासेट का उद्देश्य एक ऐसा मॉडल बनाना है जो वास्तविक समय में धोखाधड़ी गतिविधि को रोकने और कार्डधारकों और बैंकों द्वारा किए गए नुकसान को कम करने के लिए धोखाधड़ी लेनदेन का सटीक पता लगा सके। असंतुलित डेटासेट से निपटने के लिए विभिन्न वर्गीकरण एल्गोरिदम और तकनीकों का मूल्यांकन करने के लिए मशीन लर्निंग रिसर्च में इस डेटासेट का व्यापक रूप से उपयोग किया गया है।

द्वितीय। अन्वेषणात्मक डेटा विश्लेषण

अब उपलब्ध डेटा के साथ, आइए Time, Amount, और Classकॉलम पर कुछ जाँच करें।

एक बार

चित्र 1: समय वितरण (सेकंड)

कथानक से, हम यह देख सकते हैं कि समय सुविधा में दो शिखरों के साथ एक द्विपक्षीय वितरण है, यह दर्शाता है कि दिन के दौरान दो अवधियाँ होती हैं जब क्रेडिट कार्ड लेनदेन अधिक बार होते हैं। पहला शिखर लगभग 50,000 सेकंड (लगभग 14 घंटे) पर होता है, जबकि दूसरा शिखर लगभग 120,000 सेकंड (लगभग 33 घंटे) पर होता है। इससे पता चलता है कि क्रेडिट कार्ड लेनदेन के समय में एक पैटर्न हो सकता है जो धोखाधड़ी का पता लगाने के लिए उपयोगी हो सकता है।

2. राशि

चित्र 2: राशि का वितरण

कथानक से, हम देख सकते हैं कि राशि विशेषता का वितरण दाईं ओर अत्यधिक तिरछा है, जिसमें दाईं ओर एक लंबी पूंछ है। यह इंगित करता है कि अधिकांश लेन-देन की मात्रा कम है, जबकि कुछ लेन-देन की मात्रा बहुत अधिक है। नतीजतन, यह बताता है कि लेन-देन की मात्रा के संदर्भ में डेटासेट में कुछ आउटलेयर हैं। इसलिए, धोखाधड़ी का पता लगाने के लिए एक मॉडल बनाते समय, फीचर में आउटलेयर को संभालना आवश्यक हो सकता है Amount, उदाहरण के लिए, लॉग परिवर्तन या मजबूत सांख्यिकीय विधियों का उपयोग करके।

3. श्रेणी (धोखाधड़ी | गैर-धोखाधड़ी)

चित्र 3: कपटपूर्ण बनाम गैर-कपटपूर्ण लेनदेन

कथानक से, हम देख सकते हैं कि डेटासेट अत्यधिक असंतुलित है, जिसमें अधिकांश लेन-देन गैर-धोखाधड़ी (वर्ग 0) और अपेक्षाकृत कम संख्या में लेन-देन कपटपूर्ण (वर्ग 1) हैं। यह इंगित करता है कि डेटासेट में वर्ग असंतुलन की समस्या है, जो इस डेटासेट पर प्रशिक्षित मॉडल के प्रदर्शन को प्रभावित कर सकती है। धोखाधड़ी का पता लगाने के लिए एक मॉडल बनाते समय वर्ग असंतुलन की समस्या को संभालने के लिए ओवरसैंपलिंग, अंडरसैंपलिंग या क्लास वेटिंग जैसी तकनीकों का उपयोग करना आवश्यक हो सकता है।

तृतीय। डाटा प्रासेसिंग

यह सुनिश्चित करने के लिए कि डेटा में कोई महत्वपूर्ण समरूपता नहीं थी, हीटमैप का उपयोग किया गया था।

चित्रा 4: सहसंबंध हीटमैप

हीटमैप से, यह देखा जा सकता है कि डेटासेट में चर के किसी भी जोड़े के बीच कोई मजबूत सकारात्मक या नकारात्मक संबंध नहीं है। सबसे मजबूत सहसंबंध पाए जाते हैं:

  • समय और V3, -0.42 के सहसंबंध गुणांक के साथ
  • राशि और V2, -0.53 के सहसंबंध गुणांक के साथ
  • राशि और V4, 0.4 के सहसंबंध गुणांक के साथ।

चतुर्थ। मोडलिंग

" क्रेडिट कार्ड फ्रॉड डिटेक्शन " डेटासेट में क्रेडिट कार्ड लेनदेन को धोखाधड़ी या नहीं के रूप में लेबल किया गया है। डेटासेट असंतुलित है, इसलिए इसे एक ऐसे मॉडल की आवश्यकता है जो गैर-धोखाधड़ी लेनदेन को गलत तरीके से चिह्नित किए बिना धोखाधड़ी वाले लेनदेन का सटीक पता लगा सके।

वर्गीकरण की समस्याओं में मदद करने के लिए, StandardScaler डेटा को 0 का माध्य और 1 का मानक विचलन देकर मानकीकृत करता है, जिसके परिणामस्वरूप एक सामान्य वितरण होता है। मात्रा और समय की एक विस्तृत श्रृंखला के साथ काम करते समय यह तकनीक अच्छी तरह से काम करती है। डेटा को स्केल करने के लिए, फिट को इनिशियलाइज़ करने के लिए ट्रेनिंग सेट का उपयोग किया जाता है, और ट्रेन, वैलिडेशन और टेस्ट सेट को मॉडल में चलाने से पहले स्केल किया जाता है।

प्रशिक्षण के लिए डेटासेट को 60%, सत्यापन के लिए 20% और परीक्षण के लिए 20% में विभाजित किया गया था । असंतुलित डेटासेट को संतुलित करने के लिए, धोखाधड़ी वाले लेनदेन की संख्या का मिलान करने के लिए रैंडम अंडरसैंपलिंग का उपयोग किया गया था। लॉजिस्टिक रिग्रेशन और रैंडम फ़ॉरेस्ट मॉडल का उपयोग किया गया और अच्छे परिणाम प्राप्त हुए।

"क्रेडिट कार्ड फ्रॉड डिटेक्शन" डेटासेट के लिए आमतौर पर इस्तेमाल किए जाने वाले मॉडल लॉजिस्टिक रिग्रेशन, नेव बेयस, रैंडम फ़ॉरेस्ट और डमी क्लासिफायर हैं।

  • लॉजिस्टिक रिग्रेशन व्यापक रूप से धोखाधड़ी का पता लगाने के लिए उपयोग किया जाता है क्योंकि इसकी व्याख्या और बड़े डेटासेट को संभालने की क्षमता होती है।
  • Naive Bayes का आमतौर पर धोखाधड़ी का पता लगाने के लिए उपयोग किया जाता है क्योंकि यह बड़ी संख्या में सुविधाओं के साथ डेटासेट को संभाल सकता है और तेजी से पूर्वानुमान प्रदान कर सकता है।
  • रैंडम फ़ॉरेस्ट का उपयोग आमतौर पर धोखाधड़ी का पता लगाने के लिए किया जाता है क्योंकि यह जटिल डेटासेट को संभाल सकता है और इसमें ओवरफिटिंग का खतरा कम होता है।
  • डमी वर्गीकारक एक सरल एल्गोरिद्म है जिसका उपयोग अन्य मॉडलों के प्रदर्शन की तुलना करने के लिए बेंचमार्क के रूप में किया जाता है।

वी। मॉडल मूल्यांकन

यह खंड निम्नलिखित मेट्रिक्स पर चर्चा करेगा: सटीकता, रिकॉल, सटीक और F1 स्कोर।

चित्रा 5: एमएल मॉडल का मूल्यांकन करें
  • सटीकता मॉडल द्वारा की जाने वाली सही भविष्यवाणियों का अंश है। हालांकि, असंतुलित डेटासेट के लिए यह भ्रामक हो सकता है।
  • रिकॉल हमें बताता है कि मॉडल ने कितने प्रतिशत धोखाधड़ी वाले लेनदेन की सही पहचान की है। सबसे अच्छे मॉडल में, रिकॉल 89.9% है, जो एक अच्छा शुरुआती बिंदु है।
  • सूक्ष्मता हमें बताती है कि अनुमानित कपटपूर्ण लेन-देन का कितना प्रतिशत वास्तव में कपटपूर्ण था। सबसे अच्छे मॉडल में, सभी धोखाधड़ी वाले लेनदेन का 97.8% कब्जा कर लिया गया, जो एक अच्छा मीट्रिक है।
  • F1 स्कोर झूठी सकारात्मकता और झूठी नकारात्मकताओं को ध्यान में रखते हुए, दो के भारित औसत के रूप में एक मीट्रिक में रिकॉल और प्रेसिजन को जोड़ता है। यह असंतुलित वर्गों के लिए सटीकता से कहीं अधिक प्रभावी है।
  • चित्र 6: मॉडल मूल्यांकन परिणाम

1. आरओसी स्कोर

आरओसी विभिन्न स्तरों पर वर्गीकरण प्रदर्शन को मापता है। एक उच्च एयूसी स्कोर (वक्र के नीचे का क्षेत्र) का अर्थ है कि मॉडल धोखाधड़ी/गैर-धोखाधड़ी की भविष्यवाणी करने में बेहतर है।

आरओसी वक्र: विपणन में धोखाधड़ी का पता लगाने के लिए एक शक्तिशाली उपकरण
चित्रा 7: आउट-ऑफ-नमूना डेटा के लिए आरओसी घटता है

ग्राफ रसद प्रतिगमन और यादृच्छिक वन के लिए एयूसी स्कोर दिखाता है। उच्च अंक अच्छे हैं। वक्र पर बिंदु दहलीज का प्रतिनिधित्व करते हैं। दाहिनी ओर चलना अधिक ट्रू पॉज़िटिव को कैप्चर करता है, लेकिन अधिक फ़ॉल्स पॉज़िटिव को भी। लॉजिस्टिक रिग्रेशन के लिए आदर्श थ्रेसहोल्ड 0.842 और रैंडम फ़ॉरेस्ट के लिए 0.421 हैं। इन सीमाओं पर, हम झूठी सकारात्मकता को कम रखते हुए धोखाधड़ी वाले लेन-देन की इष्टतम राशि प्राप्त करते हैं। कन्फ्यूजन मैट्रिक्स प्रत्येक मॉडल के प्रभावों की कल्पना कर सकता है।

2. कन्फ्यूजन मैट्रिक्स - लॉजिस्टिक रिग्रेशन

चित्रा 8: भ्रम मैट्रिक्स - रसद प्रतिगमन

इस मॉडल ने 98 में से 88 धोखाधड़ी वाले लेन-देन पर कब्जा कर लिया और आउट-ऑफ-नमूना परीक्षण सेट में 0.842 की सीमा का उपयोग करके 1,678 सामान्य लेनदेन को धोखाधड़ी के रूप में चिह्नित किया। यह उन स्थितियों के समान है जब बैंक किसी अन्य राज्य में बिना किसी पूर्व सूचना के कार्ड के उपयोग के बाद एक पुष्टिकरण पाठ भेजता है।

3. कन्फ्यूजन मैट्रिक्स - रैंडम फॉरेस्ट

चित्र XXX: भ्रम मैट्रिक्स - यादृच्छिक वन

0.421 की दहलीज पर, रैंडम फ़ॉरेस्ट मॉडल लॉजिस्टिक रिग्रेशन मॉडल के समान प्रदर्शन करता है। यह 98 में से 88 धोखाधड़ी लेनदेन की सही पहचान करता है, लेकिन यह लॉजिस्टिक रिग्रेशन मॉडल की तुलना में धोखाधड़ी के रूप में सामान्य लेनदेन की कमी को भी चिह्नित करता है। कुल मिलाकर, दोनों मॉडलों का प्रदर्शन अच्छा है।

निष्कर्ष

धोखाधड़ी वाले क्रेडिट कार्ड लेनदेन का पता लगाना आज के समाज में महत्वपूर्ण है। कंपनियां इन उदाहरणों को पकड़ने के लिए विभिन्न तरीकों का इस्तेमाल करती हैं, और यह देखना आकर्षक है कि वे इससे कैसे निपटते हैं। विसंगतियों को ढूंढना आनंददायक है, इसलिए इस परियोजना से गुजरना बहुत मजेदार था। मुझे आशा है कि निष्कर्षों को अच्छी तरह समझाया गया था, और पढ़ने के लिए धन्यवाद!

संदर्भ

  • कागल परियोजना - यहाँ
  • जीथब रेपो - यहाँ
  • कागल डेटासेट - यहाँ
  • अधिक पढ़ें —
    क्रेडिट कार्ड धोखाधड़ी का पता लगाने के लिए प्रतिलिपि प्रस्तुत करने योग्य मशीन लर्निंग — प्रैक्टिकल हैंडबुक

लेख को 50 तालियां दें

मेरे पीछे आओ

माध्यम पर और लेख पढ़ें

सोशल मीडिया पर जुड़ें Github | लिंक्डिन | कागल

#CreditCardFraudDetection #DataScience #Machine Learning #FraudPrevention #DataAnalysis