Weka - Giới thiệu
Nền tảng của bất kỳ ứng dụng Học máy nào là dữ liệu - không chỉ là một ít dữ liệu mà là một dữ liệu khổng lồ được gọi là Big Data theo thuật ngữ hiện hành.
Để huấn luyện máy phân tích dữ liệu lớn, bạn cần phải xem xét một số dữ liệu -
- Dữ liệu phải sạch.
- Nó không được chứa các giá trị rỗng.
Bên cạnh đó, không phải tất cả các cột trong bảng dữ liệu đều hữu ích cho loại phân tích mà bạn đang cố gắng đạt được. Các cột dữ liệu hoặc 'tính năng' không liên quan như được gọi trong thuật ngữ Học máy, phải được xóa trước khi dữ liệu được đưa vào thuật toán học máy.
Tóm lại, dữ liệu lớn của bạn cần nhiều tiền xử lý trước khi có thể sử dụng cho Học máy. Khi dữ liệu đã sẵn sàng, bạn sẽ áp dụng các thuật toán Học máy khác nhau như phân loại, hồi quy, phân cụm, v.v. để giải quyết vấn đề cuối cùng của bạn.
Loại thuật toán mà bạn áp dụng phần lớn dựa trên kiến thức miền của bạn. Ngay cả trong cùng một loại, ví dụ phân loại, có một số thuật toán có sẵn. Bạn có thể muốn thử nghiệm các thuật toán khác nhau trong cùng một lớp để xây dựng mô hình học máy hiệu quả. Trong khi làm như vậy, bạn muốn trực quan hóa dữ liệu đã xử lý hơn và do đó bạn cũng yêu cầu các công cụ trực quan hóa.
Trong các chương sắp tới, bạn sẽ tìm hiểu về Weka, một phần mềm hoàn thành tất cả những điều trên một cách dễ dàng và cho phép bạn làm việc với dữ liệu lớn một cách thoải mái.