Hồi quy logistic trong Python - Giới thiệu
Logistic Regression là một phương pháp thống kê phân loại các đối tượng. Chương này sẽ giới thiệu về hồi quy logistic với sự trợ giúp của một số ví dụ.
Phân loại
Để hiểu hồi quy logistic, bạn nên biết phân loại nghĩa là gì. Chúng ta hãy xem xét các ví dụ sau để hiểu rõ hơn về điều này -
- Một bác sĩ phân loại khối u là ác tính hoặc lành tính.
- Giao dịch ngân hàng có thể là gian lận hoặc giả mạo.
Trong nhiều năm, con người đã thực hiện những công việc như vậy - mặc dù chúng dễ xảy ra lỗi. Câu hỏi đặt ra là chúng ta có thể huấn luyện máy móc làm những công việc này cho chúng ta với độ chính xác tốt hơn không?
Một ví dụ về máy thực hiện phân loại là email Clienttrên máy của bạn phân loại mọi thư đến là "thư rác" hoặc "không phải thư rác" và nó thực hiện điều đó với độ chính xác khá lớn. Kỹ thuật thống kê hồi quy logistic đã được áp dụng thành công trong ứng dụng email. Trong trường hợp này, chúng tôi đã huấn luyện máy của mình giải quyết vấn đề phân loại.
Hồi quy logistic chỉ là một phần của máy học được sử dụng để giải quyết loại vấn đề phân loại nhị phân này. Có một số kỹ thuật học máy khác đã được phát triển và đang trong thực tế để giải quyết các loại vấn đề khác.
Nếu bạn đã lưu ý, trong tất cả các ví dụ trên, kết quả của phép dự đoán chỉ có hai giá trị - Có hoặc Không. Chúng tôi gọi chúng là các lớp - để nói rằng chúng tôi nói rằng trình phân loại của chúng tôi phân loại các đối tượng trong hai lớp. Về mặt kỹ thuật, chúng ta có thể nói rằng biến kết quả hoặc biến mục tiêu có bản chất là lưỡng phân.
Có những vấn đề phân loại khác trong đó đầu ra có thể được phân loại thành nhiều hơn hai lớp. Ví dụ, được đưa cho một giỏ đầy trái cây, bạn được yêu cầu tách các loại trái cây khác nhau. Bây giờ, giỏ có thể chứa Cam, Táo, Xoài, v.v. Vì vậy, khi bạn tách các quả ra, bạn tách chúng ra thành nhiều hơn hai lớp. Đây là một bài toán phân loại đa biến.