Học máy - Không được giám sát
Cho đến nay, những gì bạn thấy là làm cho cỗ máy học cách tìm ra giải pháp cho mục tiêu của chúng tôi. Trong hồi quy, chúng tôi huấn luyện máy để dự đoán giá trị trong tương lai. Trong phân loại, chúng tôi huấn luyện máy phân loại một đối tượng không xác định vào một trong các danh mục do chúng tôi xác định. Tóm lại, chúng tôi đã đào tạo máy móc để nó có thể dự đoán Y cho dữ liệu X. Với một tập dữ liệu khổng lồ và không ước tính các danh mục, chúng tôi sẽ khó đào tạo máy bằng cách sử dụng phương pháp học có giám sát. Điều gì sẽ xảy ra nếu máy có thể tra cứu và phân tích dữ liệu lớn chạy thành nhiều Gigabyte và Terabyte và cho chúng ta biết rằng dữ liệu này chứa rất nhiều danh mục riêng biệt?
Ví dụ, hãy xem xét dữ liệu của cử tri. Bằng cách xem xét một số đầu vào từ mỗi cử tri (chúng được gọi là các tính năng trong thuật ngữ AI), hãy để máy dự đoán rằng có rất nhiều cử tri sẽ bỏ phiếu cho đảng chính trị X và nhiều người sẽ bỏ phiếu cho Y, v.v. Do đó, nói chung, chúng tôi đang hỏi máy được cung cấp một tập hợp lớn các điểm dữ liệu X, “Bạn có thể cho tôi biết gì về X?”. Hoặc nó có thể là một câu hỏi như "Năm nhóm tốt nhất chúng ta có thể tạo ra từ X là gì?". Hoặc thậm chí có thể giống như "Ba đặc điểm nào xuất hiện cùng nhau thường xuyên nhất trong X?".
Đây chính xác là tất cả về Học tập không giám sát.
Các thuật toán cho học tập không giám sát
Bây giờ chúng ta hãy thảo luận về một trong những thuật toán được sử dụng rộng rãi để phân loại trong học máy không giám sát.
k-có nghĩa là phân cụm
Các cuộc bầu cử Tổng thống năm 2000 và 2004 ở Hoa Kỳ đã gần kề - rất gần. Tỷ lệ phiếu phổ thông lớn nhất mà bất kỳ ứng cử viên nào nhận được là 50,7% và thấp nhất là 47,9%. Nếu một phần trăm cử tri đã chuyển sang phe, kết quả của cuộc bầu cử sẽ khác. Có những nhóm nhỏ cử tri, khi được kháng cáo thích hợp, sẽ chuyển phe. Những nhóm này có thể không lớn, nhưng với những cuộc chạy đua gần như vậy, họ có thể đủ lớn để thay đổi kết quả của cuộc bầu cử. Làm thế nào để bạn tìm thấy những nhóm người này? Làm thế nào để bạn thu hút họ với một ngân sách hạn chế? Câu trả lời là phân cụm.
Hãy cho chúng tôi hiểu cách nó được thực hiện.
Đầu tiên, bạn thu thập thông tin về những người có hoặc không có sự đồng ý của họ: bất kỳ loại thông tin nào có thể cung cấp manh mối về điều gì quan trọng đối với họ và điều gì sẽ ảnh hưởng đến cách họ bỏ phiếu.
Sau đó, bạn đưa thông tin này vào một số loại thuật toán phân cụm.
Tiếp theo, đối với mỗi cụm (sẽ thông minh hơn nếu chọn cụm lớn nhất trước), bạn tạo ra một thông điệp sẽ thu hút những người bỏ phiếu này.
Cuối cùng, bạn phân phối chiến dịch và đo lường xem nó có hoạt động hay không.
Phân cụm là một loại học tập không giám sát tự động tạo thành các cụm những thứ tương tự nhau. Nó giống như phân loại tự động. Bạn có thể phân cụm hầu hết mọi thứ và các mục càng giống nhau trong cụm thì các cụm càng tốt. Trong chương này, chúng ta sẽ nghiên cứu một loại thuật toán phân cụm được gọi là k-mean. Nó được gọi là k-mean vì nó tìm thấy 'k' các cụm duy nhất và trung tâm của mỗi cụm là giá trị trung bình của các giá trị trong cụm đó.
Nhận dạng cụm
Nhận dạng cụm cho một thuật toán biết, “Đây là một số dữ liệu. Bây giờ hãy nhóm những thứ tương tự lại với nhau và cho tôi biết về những nhóm đó ”. Sự khác biệt chính so với phân loại là trong phân loại, bạn biết những gì bạn đang tìm kiếm. Trong khi đó không phải là trường hợp trong phân cụm.
Phân cụm đôi khi được gọi là phân loại không giám sát vì nó tạo ra kết quả giống như phân loại nhưng không có các lớp được xác định trước.
Giờ đây, chúng tôi cảm thấy thoải mái với cả việc học có giám sát và không giám sát. Để hiểu phần còn lại của các danh mục học máy, trước tiên chúng ta phải hiểu về Mạng thần kinh nhân tạo (ANN), chúng ta sẽ tìm hiểu trong chương tiếp theo.