Kredi Kartı Dolandırıcılığı Tespiti: Uygulamalı Bir Proje
Keşfetmek:
- Kredi Kartı Dolandırıcılık Tespitinin Önemini Anlamak
- Proje için “Kredi Kartı Dolandırıcılık Tespiti” Veri Kümesine Giriş
- Sağlam Dolandırıcılık Tespit Modelleri Oluşturma
- Model Performansını Değerlendirme
- Model Sonuçlarını Yorumlama ve Analiz Etme
2022 Dünya Ödeme Raporu, nakit dışı işlemlerin hızlı büyümesini ve B2B ödeme değer zincirleri ile küçük ve orta ölçekli işletmelerin önemini vurgulamaktadır. Ayrıca, gelecek yıllarda aşağıdaki gibi gayri nakdi işlemlerde istikrarlı bir büyüme olması beklenmektedir.
Umut verici görünse de, hileli işlemler de arttı. EMV akıllı çiplerinin uygulanmasına rağmen, kredi kartı dolandırıcılığı nedeniyle hala önemli miktarda para kaybediliyor.
Riski nasıl en aza indirebiliriz? Kayıpları azaltmak ve dolandırıcılığı önlemek için çeşitli teknikler olsa da, yaklaşımımda size rehberlik edeceğim ve keşiflerimi paylaşacağım.
I. Veri Kümesi Hakkında
Kaggle'daki “ Kredi Kartı Dolandırıcılık Tespiti ” veri seti, Avrupalı kart sahipleri tarafından Eylül 2013'te kredi kartlarıyla yapılan işlemleri içeren oldukça dengesiz bir veri setidir. Veri seti toplam 284.807 işlem içeriyor ve bunların sadece 492'si sahte, bu da veri setini oldukça dengesiz hale getiriyor. Veri seti, hassas bilgilerin gizliliğini korumak için PCA dönüşümü ile elde edilen sayısal değerler olan 28 özellik içerir. Bu veri setinin amacı, dolandırıcılık faaliyetlerini gerçek zamanlı olarak doğru bir şekilde tespit edebilen bir model oluşturarak dolandırıcılık faaliyetini önlemek ve kart hamillerinin ve bankaların uğradığı zararları azaltmaktır. Bu veri kümesi, dengesiz veri kümeleriyle başa çıkmak için farklı sınıflandırma algoritmalarını ve tekniklerini değerlendirmek için makine öğrenimi araştırmalarında yaygın olarak kullanılmaktadır.
II. Keşifsel Veri Analizi
Artık mevcut olan verilerle, , ve sütunları üzerinde bazı Time
kontroller Amount
yapalım Class
.
1 kez
Çizelgeden, Zaman özelliğinin iki tepe noktalı çift modlu bir dağılıma sahip olduğunu gözlemleyebiliriz, bu da gün içinde kredi kartı işlemlerinin daha sık olduğu iki dönem olduğunu gösterir. İlk zirve yaklaşık 50.000 saniyede (yaklaşık 14 saat), ikinci zirve ise yaklaşık 120.000 saniyede (yaklaşık 33 saat) gerçekleşir. Bu, dolandırıcılık tespiti için yararlı olabilecek kredi kartı işlemlerinin zamanlamasında bir model olabileceğini düşündürmektedir.
2. Tutar
Arsadan, Miktar özelliğinin dağılımının sağa doğru uzun bir kuyruk ile oldukça çarpık olduğunu gözlemleyebiliriz. Bu, işlemlerin büyük çoğunluğunun düşük tutarlara sahip olduğunu, birkaç işlemin ise aşırı yüksek tutarlara sahip olduğunu gösterir. Sonuç olarak, bu veri setinin işlem tutarları açısından bazı aykırı değerler içerdiğini göstermektedir. Amount
Bu nedenle, dolandırıcılık tespiti için bir model oluştururken, örneğin bir günlük dönüşümü veya güçlü istatistiksel yöntemler kullanarak özellikteki aykırı değerlerin işlenmesi gerekebilir .
3. Sınıf (Dolandırıcılık | Dolandırıcılık Dışı)
Çizimden, işlemlerin büyük çoğunluğunun hileli olmadığı (sınıf 0) ve nispeten az sayıda işlemin hileli olduğu (sınıf 1) ile veri kümesinin oldukça dengesiz olduğunu gözlemleyebiliriz. Bu, veri setinde, bu veri setinde eğitilen bir modelin performansını etkileyebilecek bir sınıf dengesizliği sorunu olduğunu gösterir. Dolandırıcılık tespiti için bir model oluştururken sınıf dengesizliği sorununu çözmek için yüksek örnekleme, yetersiz örnekleme veya sınıf ağırlıklandırma gibi tekniklerin kullanılması gerekebilir.
III. Veri işleme
Verilerde önemli bir bağlantı olmadığından emin olmak için ısı haritası kullanıldı.
Isı haritasından, veri setindeki herhangi bir değişken çifti arasında güçlü bir pozitif veya negatif korelasyon olmadığı gözlemlenebilir. En güçlü korelasyonlar bulunur:
- Zaman ve V3, -0,42 korelasyon katsayısı ile
- Miktar ve V2, -0,53 korelasyon katsayısı ile
- Miktar ve V4, 0.4'lük bir korelasyon katsayısı ile.
IV. modelleme
“ Kredi Kartı Dolandırıcılık Tespiti ” veri setinde, kredi kartı işlemlerinin hileli olup olmadığı etiketlenir. Veri kümesi dengesizdir, bu nedenle hileli olmayan işlemleri yanlış bir şekilde işaretlemeden hileli işlemleri doğru bir şekilde tespit edebilen bir modele ihtiyacı vardır.
StandardScaler , sınıflandırma problemlerine yardımcı olmak için verileri ortalama 0 ve standart sapma 1 vererek standartlaştırır, bu da normal bir dağılımla sonuçlanır. Bu teknik, çok çeşitli miktarlar ve sürelerle uğraşırken iyi çalışır. Verileri ölçeklendirmek için, uyumu başlatmak için eğitim seti kullanılır ve ardından tren, doğrulama ve test setleri, modellerde çalıştırılmadan önce ölçeklendirilir.
Veri seti , eğitim için %60, doğrulama için %20 ve test için %20 olarak bölünmüştür . Dengesiz veri setini dengelemek için, hileli işlemlerin sayısını eşleştirmek için Rastgele Düşük Örnekleme kullanıldı. Lojistik Regresyon ve Rastgele Orman modelleri kullanılmış ve iyi sonuçlar elde edilmiştir.
“Kredi Kartı Dolandırıcılık Tespiti” veri seti için yaygın olarak kullanılan modeller Lojistik Regresyon, Naive Bayes, Random Forest ve Dummy Classifier'dır.
- Lojistik Regresyon, yorumlanabilirliği ve büyük veri kümelerini işleme yeteneği nedeniyle dolandırıcılık tespiti için yaygın olarak kullanılmaktadır.
- Naive Bayes, çok sayıda özelliğe sahip veri kümelerini işleyebilmesi ve hızlı tahminler sunabilmesi nedeniyle yaygın olarak dolandırıcılık tespiti için kullanılır.
- Rastgele Orman, karmaşık veri kümelerini işleyebildiği ve aşırı uydurmaya daha az eğilimli olduğu için genellikle dolandırıcılık tespiti için kullanılır.
- Kukla Sınıflandırıcı, diğer modellerin performansını karşılaştırmak için bir ölçüt olarak kullanılan basit bir algoritmadır.
V. Model Değerlendirmesi
Bu bölümde şu metrikler ele alınacaktır: Doğruluk, Geri Çağırma, Kesinlik ve F1 Puanı.
- Doğruluk, modelin yaptığı doğru tahminlerin oranıdır. Ancak dengesiz veri kümeleri için yanıltıcı olabilir.
- Geri çağırma, modelin dolandırıcılık işlemlerinin yüzde kaçının doğru bir şekilde tanımladığını bize söyler. En iyi modelde geri çağırma oranı %89,9'dur ve bu iyi bir başlangıç noktasıdır.
- Kesinlik, tahmin edilen hileli işlemlerin yüzde kaçının gerçekte hileli olduğunu bize söyler. En iyi modelde, tüm hileli işlemlerin %97,8'i yakalandı ve bu iyi bir ölçüm.
- F1 Puanı, Yanlış pozitifleri ve yanlış negatifleri dikkate alarak, Hatırlama ve Kesinliği ikisinin ağırlıklı ortalaması olarak tek bir metrikte birleştirir. Dengesiz sınıflar için doğruluktan çok daha etkilidir.
1. ROC Puanları
ROC, sınıflandırma performansını farklı eşiklerde ölçer. Daha yüksek bir AUC puanı (Eğri Altındaki Alan), modelin dolandırıcılığı/dolandırıcılığı önlemede daha iyi olduğu anlamına gelir.
ROC Eğrisi: Pazarlamada Dolandırıcılık Tespiti için Güçlü Bir AraçGrafik, Lojistik Regresyon ve Rastgele Orman için EAA puanlarını gösterir. Yüksek puanlar iyidir. Eğri üzerindeki noktalar eşikleri temsil eder. Sağa hareket etmek daha fazla Gerçek Pozitif ve aynı zamanda daha fazla Yanlış Pozitif yakalar. İdeal eşikler, Lojistik Regresyon için 0,842 ve Rastgele Orman için 0,421'dir. Bu eşiklerde, Yanlış Pozitifleri düşük tutarken en uygun miktarda hileli işlem yakalarız. Karışıklık Matrisi, her bir modelin etkilerini görselleştirebilir.
2. Karışıklık Matrisi — Lojistik Regresyon
Model, 98 hileli işlemden 88'ini yakaladı ve örnek dışı test setinde 0,842'lik bir eşik kullanarak 1.678 normal işlemi hileli olarak işaretledi. Bu, kartın başka bir durumda kullanılmasının ardından bankanın önceden haber vermeksizin onay metni göndermesine benzer.
3. Karışıklık Matrisi — Rastgele Orman
0,421 eşiğinde Rastgele Orman modeli, Lojistik Regresyon modeline benzer şekilde çalışır. 98 hileli işlemden 88'ini doğru bir şekilde tanımlar, ancak Lojistik Regresyon modeline kıyasla normal işlemlerdeki azalmayı da hileli olarak işaretler. Genel olarak, her iki model de iyi performansa sahiptir.
Çözüm
Hileli kredi kartı işlemlerini tespit etmek günümüz toplumunda çok önemlidir. Şirketler bu örnekleri yakalamak için çeşitli yöntemler kullanıyor ve bununla nasıl başa çıktıklarını görmek büyüleyici. Anormallikleri bulmak eğlencelidir, bu yüzden bu projeyi incelemek çok eğlenceliydi. Umarım bulgular iyi açıklanmıştır ve okuduğunuz için teşekkürler!
Referanslar
- Kaggle Projesi — BURAYA
- Github Deposu — BURAYA
- Kaggle Veri Kümesi — BURAYA
- DAHA FAZLA OKUYUN —
Kredi Kartı Dolandırıcılığı tespiti için Tekrarlanabilir Makine Öğrenimi — Pratik el kitabı
Makaleye 50 alkış verin
beni takip et
Medium'da daha fazla makale okuyun
Sosyal medyada bağlanın Github | Linkedin | Kaggle
#CreditCardFraudDetection #DataScience #MachineLearning #FraudPrevention #DataAnalysis