Deteksi Penipuan Kartu Kredit: Proyek Langsung

May 10 2023
Temukan: Laporan Pembayaran Dunia 2022 menyoroti pesatnya pertumbuhan transaksi nontunai dan pentingnya rantai nilai pembayaran B2B dan usaha kecil dan menengah. Selain itu, diharapkan di tahun-tahun mendatang akan ada pertumbuhan yang stabil dari transaksi nontunai seperti di bawah ini Meskipun terlihat menjanjikan, transaksi penipuan juga meningkat.

Menemukan:

  • Memahami Pentingnya Deteksi Penipuan Kartu Kredit
  • Pengantar Kumpulan Data “Deteksi Penipuan Kartu Kredit” untuk Proyek
  • Membangun Model Deteksi Penipuan yang Kuat
  • Mengevaluasi Performa Model
  • Menafsirkan dan Menganalisis Hasil Model

Laporan Pembayaran Dunia 2022 menyoroti pesatnya pertumbuhan transaksi nontunai dan pentingnya rantai nilai pembayaran B2B dan usaha kecil dan menengah. Selain itu, diharapkan di tahun-tahun mendatang akan terjadi pertumbuhan transaksi nontunai yang stabil seperti di bawah ini

Laporan Pembayaran Dunia 2022

Meski terlihat menjanjikan, transaksi penipuan juga meningkat. Terlepas dari penerapan chip pintar EMV, sejumlah besar uang masih hilang karena penipuan kartu kredit.

Sorotan: Perkiraan Kerugian Penipuan Pembayaran Kartu AS 2022

Bagaimana kita bisa meminimalkan risiko? Meskipun ada berbagai teknik untuk mengurangi kerugian dan mencegah penipuan, saya akan memandu Anda melalui pendekatan saya dan membagikan penemuan saya.

I. Tentang Kumpulan Data

Kumpulan data “ Deteksi Penipuan Kartu Kredit ” di Kaggle adalah kumpulan data yang sangat tidak seimbang yang berisi transaksi yang dilakukan oleh kartu kredit pada bulan September 2013 oleh pemegang kartu Eropa. Kumpulan data mencakup total 284.807 transaksi, di mana hanya 492 yang curang, membuat kumpulan data sangat tidak seimbang. Dataset mencakup 28 fitur, yang merupakan nilai numerik yang diperoleh dengan transformasi PCA untuk menjaga kerahasiaan informasi sensitif. Tujuan dari kumpulan data ini adalah untuk membangun model yang dapat mendeteksi transaksi penipuan secara real-time secara akurat untuk mencegah aktivitas penipuan dan mengurangi kerugian yang ditanggung oleh pemegang kartu dan bank. Kumpulan data ini telah banyak digunakan dalam penelitian pembelajaran mesin untuk mengevaluasi berbagai algoritme dan teknik klasifikasi untuk menangani kumpulan data yang tidak seimbang.

II. Analisis Data Eksplorasi

Dengan data yang sekarang tersedia, mari kita periksa beberapa kolom Time, Amount, dan Class.

1 kali

Gambar 1: Distribusi Waktu (Detik)

Dari plot tersebut, kita dapat mengamati bahwa fitur Waktu memiliki distribusi bimodal dengan dua puncak, yang menunjukkan bahwa ada dua periode di siang hari ketika transaksi kartu kredit lebih sering terjadi. Puncak pertama terjadi sekitar 50.000 detik (kurang lebih 14 jam), sedangkan puncak kedua terjadi sekitar 120.000 detik (kurang lebih 33 jam). Hal ini menunjukkan bahwa mungkin ada pola waktu transaksi kartu kredit yang berguna untuk deteksi penipuan.

2. Jumlah

Gambar 2: Distribusi Jumlah

Dari plot tersebut, kita dapat mengamati bahwa distribusi fitur Jumlah sangat miring ke kanan, dengan ekor yang panjang ke kanan. Hal ini menunjukkan bahwa sebagian besar transaksi memiliki jumlah yang rendah, sementara beberapa transaksi memiliki jumlah yang sangat tinggi. Akibatnya, ini menunjukkan bahwa kumpulan data mengandung beberapa outlier dalam hal jumlah transaksi. Oleh karena itu, saat membuat model untuk deteksi penipuan, mungkin perlu menangani outlier dalam Amountfitur, misalnya dengan menggunakan transformasi log atau metode statistik yang kuat.

3. Kelas (Penipuan | Non-Penipuan)

Gambar 3: Transaksi Penipuan vs. Non-Penipuan

Dari plot tersebut, kita dapat mengamati bahwa kumpulan data sangat tidak seimbang, dengan sebagian besar transaksi tidak curang (kelas 0) dan jumlah transaksi yang relatif kecil adalah curang (kelas 1). Ini menunjukkan bahwa set data memiliki masalah ketidakseimbangan kelas, yang dapat memengaruhi performa model yang dilatih pada set data ini. Mungkin perlu menggunakan teknik seperti oversampling, undersampling, atau class weighting untuk menangani masalah ketidakseimbangan kelas saat membangun model untuk deteksi penipuan.

AKU AKU AKU. Pengolahan data

Untuk memastikan bahwa tidak ada kolinearitas yang signifikan dalam data, peta panas digunakan.

Gambar 4: Peta Panas Korelasi

Dari peta panas, dapat diamati bahwa tidak ada korelasi positif atau negatif yang kuat antara setiap pasangan variabel dalam dataset. Korelasi terkuat ditemukan:

  • Waktu dan V3, dengan koefisien korelasi -0,42
  • Jumlah dan V2, dengan koefisien korelasi -0,53
  • Jumlah dan V4, dengan koefisien korelasi 0,4.

IV. Pemodelan

Dataset “ Deteksi Penipuan Kartu Kredit ” memiliki transaksi kartu kredit yang dilabeli penipuan atau tidak. Dataset tidak seimbang, sehingga diperlukan model yang dapat mendeteksi transaksi penipuan secara akurat tanpa salah menandai transaksi non-penipuan.

Untuk membantu masalah klasifikasi, StandardScaler membakukan data dengan memberikan rata-rata 0 dan standar deviasi 1, yang menghasilkan distribusi normal. Teknik ini bekerja dengan baik ketika berhadapan dengan berbagai jumlah dan waktu. Untuk menskalakan data, set pelatihan digunakan untuk menginisialisasi kecocokan, dan set pelatihan, validasi, dan pengujian kemudian diskalakan sebelum menjalankannya ke dalam model.

Dataset dibagi menjadi 60% untuk pelatihan, 20% untuk validasi, dan 20% untuk pengujian . Untuk menyeimbangkan kumpulan data yang tidak seimbang, Random Undersampling digunakan untuk mencocokkan jumlah transaksi penipuan. Model Regresi Logistik dan Hutan Acak digunakan, dan hasil yang baik dihasilkan.

Model yang umum digunakan untuk dataset “Credit Card Fraud Detection” adalah Logistic Regression, Naive Bayes, Random Forest, dan Dummy Classifier.

  • Regresi Logistik banyak digunakan untuk deteksi penipuan karena kemampuan interpretasi dan kemampuannya untuk menangani kumpulan data yang besar.
  • Naive Bayes umumnya digunakan untuk deteksi penipuan karena dapat menangani dataset dengan banyak fitur dan dapat memberikan prediksi yang cepat.
  • Random Forest umumnya digunakan untuk deteksi penipuan karena dapat menangani kumpulan data yang kompleks dan tidak terlalu rentan terhadap overfitting.
  • Dummy Classifier adalah algoritma sederhana yang digunakan sebagai benchmark untuk membandingkan performa model lain.

V. Model Evaluasi

Bagian ini akan membahas metrik berikut: Accuracy, Recall, Precision, dan F1 Score.

Gambar 5: Mengevaluasi model ML
  • Akurasi adalah sebagian kecil dari prediksi yang benar yang dibuat oleh model. Namun, ini bisa menyesatkan untuk kumpulan data yang tidak seimbang.
  • Ingat memberi tahu kami berapa persentase transaksi penipuan yang diidentifikasi dengan benar oleh model. Pada model terbaik, daya ingatnya adalah 89,9%, yang merupakan titik awal yang baik.
  • Presisi memberi tahu kita berapa persentase dari prediksi transaksi penipuan yang benar-benar curang. Dalam model terbaik, 97,8% dari semua transaksi penipuan ditangkap, yang merupakan metrik yang bagus.
  • Skor F1 menggabungkan Recall dan Presisi menjadi satu metrik sebagai rata-rata tertimbang dari keduanya, dengan mempertimbangkan positif palsu dan negatif palsu. Ini jauh lebih efektif daripada akurasi untuk kelas yang tidak seimbang.
  • Gambar 6: Hasil Evaluasi Model

1. Skor ROC

ROC mengukur kinerja klasifikasi pada ambang yang berbeda. Skor AUC yang lebih tinggi (Area Under the Curve) berarti model tersebut lebih baik dalam memprediksi fraud/non-fraud.

Kurva ROC: Alat yang Ampuh untuk Deteksi Penipuan dalam Pemasaran
Gambar 7: Kurva ROC untuk data di luar sampel

Grafik menunjukkan skor AUC untuk Regresi Logistik dan Hutan Acak. Skor tinggi itu bagus. Titik-titik pada kurva mewakili ambang batas. Bergerak ke kanan menangkap lebih banyak True Positive tetapi juga lebih banyak False Positive. Ambang batas yang ideal adalah 0,842 untuk Logistic Regression dan 0,421 untuk Random Forest. Pada ambang batas ini, kami menangkap jumlah transaksi penipuan yang optimal sekaligus menjaga Positif Palsu tetap rendah. Matriks Kebingungan dapat memvisualisasikan efek dari setiap model.

2. Matriks Kebingungan — Regresi Logistik

Gambar 8: Matriks Kebingungan — Regresi Logistik

Model tersebut menangkap 88 dari 98 transaksi penipuan dan menandai 1.678 transaksi normal sebagai penipuan menggunakan ambang batas 0,842 dalam set pengujian di luar sampel. Ini mirip dengan situasi ketika bank mengirimkan teks konfirmasi setelah kartu digunakan di negara bagian lain tanpa pemberitahuan sebelumnya.

3. Matriks Kebingungan — Hutan Acak

Gambar xxx: Matriks Kebingungan — Hutan Acak

Pada ambang batas 0,421, model Hutan Acak bekerja serupa dengan model Regresi Logistik. Ini dengan benar mengidentifikasi 88 dari 98 transaksi penipuan, tetapi juga menandai penurunan transaksi normal sebagai penipuan dibandingkan dengan model Regresi Logistik. Secara keseluruhan, kedua model memiliki kinerja yang baik.

Kesimpulan

Mendeteksi penipuan transaksi kartu kredit sangat penting dalam masyarakat saat ini. Perusahaan menggunakan berbagai metode untuk menangkap kejadian ini, dan sangat menarik untuk melihat bagaimana mereka menghadapinya. Menemukan anomali itu menyenangkan, jadi melalui proyek ini sangat menyenangkan. Saya harap temuannya dijelaskan dengan baik, dan terima kasih telah membaca!

Referensi

  • Proyek Kaggle - DI SINI
  • Repo Github — DI SINI
  • Kumpulan Data Kaggle - DI SINI
  • BACA SELENGKAPNYA —
    Pembelajaran Mesin yang Dapat Direproduksi untuk Deteksi Penipuan Kartu Kredit — Buku pegangan praktis

Beri artikel 50 tepuk tangan

Ikuti saya

Baca lebih banyak artikel di Medium

Terhubung di media sosial Github | Linkedin | Kaggle

#CreditCardFraudDetection #DataScience #MachineLearning #FraudPrevention #DataAnalysis