Xây dựng mô hình hồi quy

Hồi quy logistic đề cập đến thuật toán học máy được sử dụng để dự đoán xác suất của biến phụ thuộc phân loại. Trong hồi quy logistic, biến phụ thuộc là biến nhị phân, bao gồm dữ liệu được mã hóa là 1 (các giá trị Boolean của true và false).

Trong chương này, chúng ta sẽ tập trung vào việc phát triển một mô hình hồi quy trong Python sử dụng biến liên tục. Ví dụ cho mô hình hồi quy tuyến tính sẽ tập trung vào việc khám phá dữ liệu từ tệp CSV.

Mục tiêu phân loại là dự đoán liệu khách hàng có đăng ký (1/0) vào một khoản tiền gửi có kỳ hạn hay không.

import pandas as pd
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt

plt.rc("font", size=14)
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split

import seaborn as sns
sns.set(style="white")
sns.set(style="whitegrid", color_codes=True)
data = pd.read_csv('bank.csv', header=0)
data = data.dropna()
print(data.shape)
print(list(data.columns))

Làm theo các bước sau để triển khai mã trên trong Anaconda Navigator với “Máy tính xách tay Jupyter” -

Step 1 - Khởi chạy Máy tính xách tay Jupyter với Bộ điều hướng Anaconda.

Step 2 - Tải lên tệp csv để lấy đầu ra của mô hình hồi quy một cách có hệ thống.

Step 3 - Tạo một tệp mới và thực hiện dòng mã nói trên để có kết quả đầu ra mong muốn.