Phát hiện gian lận thẻ tín dụng: Dự án thực hành
Phát hiện:
- Hiểu được tầm quan trọng của việc phát hiện gian lận thẻ tín dụng
- Giới thiệu về Bộ dữ liệu “Phát hiện gian lận thẻ tín dụng” cho Dự án
- Xây dựng các mô hình phát hiện gian lận mạnh mẽ
- Đánh giá hiệu suất mô hình
- Giải thích và phân tích kết quả mô hình
Báo cáo Thanh toán Thế giới 2022 nêu bật sự tăng trưởng nhanh chóng của các giao dịch không dùng tiền mặt và tầm quan trọng của chuỗi giá trị thanh toán B2B và các doanh nghiệp vừa và nhỏ. Ngoài ra, dự kiến trong những năm tới sẽ có sự tăng trưởng ổn định của các giao dịch không dùng tiền mặt như dưới đây
Mặc dù có vẻ hứa hẹn nhưng các giao dịch gian lận cũng đã tăng lên. Mặc dù đã triển khai chip thông minh EMV, một lượng tiền đáng kể vẫn bị mất do gian lận thẻ tín dụng.
Làm thế nào chúng ta có thể giảm thiểu rủi ro? Mặc dù có nhiều kỹ thuật khác nhau để giảm tổn thất và ngăn chặn gian lận, nhưng tôi sẽ hướng dẫn bạn cách tiếp cận và chia sẻ những khám phá của tôi.
I. Giới thiệu về Bộ dữ liệu
Bộ dữ liệu “ Phát hiện gian lận thẻ tín dụng ” trên Kaggle là một bộ dữ liệu mất cân bằng cao chứa các giao dịch được thực hiện bằng thẻ tín dụng vào tháng 9 năm 2013 bởi các chủ thẻ châu Âu. Bộ dữ liệu bao gồm tổng cộng 284.807 giao dịch, trong đó chỉ có 492 giao dịch là gian lận, khiến bộ dữ liệu mất cân đối cao. Bộ dữ liệu bao gồm 28 tính năng, là các giá trị số thu được từ phép biến đổi PCA để duy trì tính bảo mật của thông tin nhạy cảm. Mục đích của bộ dữ liệu này là xây dựng một mô hình có thể phát hiện chính xác các giao dịch gian lận trong thời gian thực để ngăn chặn hoạt động gian lận và giảm tổn thất cho chủ thẻ và ngân hàng. Bộ dữ liệu này đã được sử dụng rộng rãi trong nghiên cứu máy học để đánh giá các thuật toán và kỹ thuật phân loại khác nhau để xử lý các bộ dữ liệu mất cân bằng.
II. Phân tích dữ liệu khám phá
Với dữ liệu hiện có sẵn, hãy kiểm tra một số cột Time
, Amount
và Class
.
1 lần
Từ đồ thị, chúng ta có thể quan sát thấy rằng tính năng Thời gian có phân phối hai chiều với hai đỉnh, cho thấy rằng có hai khoảng thời gian trong ngày khi các giao dịch thẻ tín dụng diễn ra thường xuyên hơn. Đỉnh đầu tiên xảy ra vào khoảng 50.000 giây (khoảng 14 giờ), trong khi đỉnh thứ hai xảy ra vào khoảng 120.000 giây (khoảng 33 giờ). Điều này cho thấy rằng có thể có một khuôn mẫu về thời gian của các giao dịch thẻ tín dụng có thể hữu ích cho việc phát hiện gian lận.
2. Số tiền
Từ đồ thị, chúng ta có thể quan sát thấy rằng sự phân bố của đặc tính Số lượng bị lệch nhiều về bên phải, với một phần đuôi dài ở bên phải. Điều này cho thấy rằng phần lớn các giao dịch có số tiền thấp, trong khi một số giao dịch có số tiền cực kỳ cao. Do đó, điều này cho thấy rằng tập dữ liệu có chứa một số ngoại lệ về số lượng giao dịch. Do đó, khi xây dựng một mô hình để phát hiện gian lận, có thể cần phải xử lý các giá trị ngoại lệ trong tính Amount
năng, chẳng hạn như bằng cách sử dụng chuyển đổi nhật ký hoặc các phương pháp thống kê hiệu quả.
3. Loại (Gian lận | Không gian lận)
Từ đồ thị, chúng ta có thể quan sát thấy rằng bộ dữ liệu rất mất cân bằng, với phần lớn các giao dịch là không gian lận (loại 0) và một số lượng tương đối nhỏ các giao dịch là gian lận (loại 1). Điều này chỉ ra rằng tập dữ liệu có vấn đề mất cân bằng lớp, điều này có thể ảnh hưởng đến hiệu suất của một mô hình được đào tạo trên tập dữ liệu này. Có thể cần sử dụng các kỹ thuật như lấy mẫu quá mức, lấy mẫu dưới mức hoặc trọng số lớp để xử lý vấn đề mất cân bằng lớp khi xây dựng mô hình phát hiện gian lận.
III. Xử lí dữ liệu
Để đảm bảo rằng không có bất kỳ cộng tuyến đáng kể nào trong dữ liệu, bản đồ nhiệt đã được sử dụng.
Từ bản đồ nhiệt, có thể thấy rằng không có mối tương quan thuận hoặc nghịch mạnh giữa bất kỳ cặp biến nào trong tập dữ liệu. Các mối tương quan mạnh nhất được tìm thấy:
- Thời gian và V3, với hệ số tương quan -0,42
- Số tiền và V2, với hệ số tương quan là -0,53
- Số tiền và V4, với hệ số tương quan là 0,4.
IV. người mẫu
Bộ dữ liệu “ Phát hiện gian lận thẻ tín dụng ” có các giao dịch thẻ tín dụng được gắn nhãn là gian lận hay không. Bộ dữ liệu bị mất cân bằng, vì vậy nó cần một mô hình có thể phát hiện chính xác các giao dịch gian lận mà không gắn cờ nhầm các giao dịch không gian lận.
Để giúp giải quyết các vấn đề về phân loại, StandardScaler chuẩn hóa dữ liệu bằng cách đặt giá trị trung bình cho dữ liệu là 0 và độ lệch chuẩn là 1, dẫn đến phân phối chuẩn. Kỹ thuật này hoạt động tốt khi xử lý nhiều số lượng và thời gian. Để chia tỷ lệ dữ liệu, tập huấn luyện được sử dụng để khởi tạo sự phù hợp và các tập huấn luyện, xác thực và kiểm tra sau đó được chia tỷ lệ trước khi chạy chúng vào các mô hình.
Tập dữ liệu được chia thành 60% để đào tạo, 20% để xác thực và 20% để thử nghiệm . Để cân bằng tập dữ liệu mất cân bằng, Lấy mẫu ngẫu nhiên đã được sử dụng để khớp với số lượng giao dịch gian lận. Các mô hình hồi quy logistic và rừng ngẫu nhiên đã được sử dụng và đã tạo ra kết quả tốt.
Các mô hình thường được sử dụng cho bộ dữ liệu “Phát hiện gian lận thẻ tín dụng” là Hồi quy logistic, Naive Bayes, Rừng ngẫu nhiên và Trình phân loại giả.
- Hồi quy logistic được sử dụng rộng rãi để phát hiện gian lận vì tính dễ hiểu và khả năng xử lý các tập dữ liệu lớn.
- Naive Bayes thường được sử dụng để phát hiện gian lận vì nó có thể xử lý các bộ dữ liệu với số lượng lớn các tính năng và có thể đưa ra dự đoán nhanh.
- Random Forest thường được sử dụng để phát hiện gian lận vì nó có thể xử lý các bộ dữ liệu phức tạp và ít bị trang bị quá mức.
- Trình phân loại giả là một thuật toán đơn giản được sử dụng làm điểm chuẩn để so sánh hiệu suất của các mô hình khác.
V. Đánh giá mô hình
Phần này sẽ thảo luận về các chỉ số sau: Độ chính xác, Thu hồi, Độ chính xác và Điểm F1.
- Độ chính xác là tỷ lệ dự đoán đúng mà mô hình đưa ra. Tuy nhiên, nó có thể gây hiểu lầm cho các bộ dữ liệu không cân bằng.
- Nhớ lại cho chúng tôi biết tỷ lệ phần trăm giao dịch gian lận mà mô hình đã xác định chính xác. Trong mô hình tốt nhất, tỷ lệ thu hồi là 89,9%, đây là một điểm khởi đầu tốt.
- Độ chính xác cho chúng tôi biết bao nhiêu phần trăm giao dịch gian lận được dự đoán thực sự là gian lận. Trong mô hình tốt nhất, 97,8% tất cả các giao dịch gian lận đã bị bắt giữ, đây là một số liệu tốt.
- Điểm F1 kết hợp Khả năng thu hồi và Độ chính xác thành một chỉ số dưới dạng trung bình có trọng số của cả hai, có tính đến kết quả dương tính giả và âm tính giả. Nó hiệu quả hơn nhiều so với độ chính xác đối với các lớp mất cân bằng.
1. Điểm ROC
ROC đo hiệu suất phân loại ở các ngưỡng khác nhau. Điểm AUC (Diện tích dưới đường cong) cao hơn có nghĩa là mô hình dự đoán gian lận/không gian lận tốt hơn.
Đường cong ROC: Công cụ mạnh mẽ để phát hiện gian lận trong tiếp thịBiểu đồ hiển thị điểm AUC cho Hồi quy logistic và Rừng ngẫu nhiên. Điểm cao là tốt. Các điểm trên đường cong biểu thị các ngưỡng. Di chuyển sang phải thu được nhiều Tích cực Đúng hơn nhưng cũng nhiều Tích cực Sai hơn. Các ngưỡng lý tưởng là 0,842 cho Hồi quy logistic và 0,421 cho Rừng ngẫu nhiên. Ở các ngưỡng này, chúng tôi nắm bắt được số lượng giao dịch gian lận tối ưu trong khi vẫn giữ tỷ lệ Tích cực Sai ở mức thấp. Ma trận nhầm lẫn có thể hình dung các tác động của từng mô hình.
2. Ma trận nhầm lẫn - Hồi quy logistic
Mô hình đã bắt được 88 trong số 98 giao dịch gian lận và đánh dấu 1.678 giao dịch bình thường là gian lận bằng cách sử dụng ngưỡng 0,842 trong bộ thử nghiệm ngoài mẫu. Điều này cũng tương tự như tình huống ngân hàng gửi văn bản xác nhận sau khi thẻ được sử dụng ở trạng thái khác mà không thông báo trước.
3. Ma trận nhầm lẫn - Rừng ngẫu nhiên
Ở ngưỡng 0,421, mô hình Rừng ngẫu nhiên hoạt động tương tự như mô hình Hồi quy logistic. Nó xác định chính xác 88 trong số 98 giao dịch gian lận, nhưng nó cũng đánh dấu sự sụt giảm của các giao dịch bình thường là gian lận so với mô hình Hồi quy Logistic. Nhìn chung, cả hai mô hình đều có hiệu suất tốt.
Phần kết luận
Phát hiện các giao dịch thẻ tín dụng gian lận là rất quan trọng trong xã hội ngày nay. Các công ty sử dụng nhiều phương pháp khác nhau để nắm bắt những trường hợp này và thật thú vị khi xem cách họ giải quyết vấn đề này. Việc tìm kiếm sự bất thường rất thú vị, vì vậy việc hoàn thành dự án này rất thú vị. Tôi hy vọng những phát hiện đã được giải thích tốt, và cảm ơn vì đã đọc!
Người giới thiệu
- Dự án Kaggle - TẠI ĐÂY
- Kho lưu trữ Github — TẠI ĐÂY
- Bộ dữ liệu Kaggle - TẠI ĐÂY
- ĐỌC THÊM —
Học máy tái tạo để phát hiện gian lận thẻ tín dụng — Sổ tay thực hành
Cho bài viết 50 vỗ tay
Theo tôi
Đọc thêm các bài viết trên Medium
Kết nối trên mạng xã hội Github | liên kết | kaggle
#Phát hiện gian lận thẻ tín dụng #Khoa học dữ liệu #Học máy #Phòng chống gian lận #Phân tích dữ liệu