Weka - Bộ phân loại

Nhiều ứng dụng học máy có liên quan đến phân loại. Ví dụ, bạn có thể muốn phân loại khối u là ác tính hoặc lành tính. Bạn có thể quyết định chơi một trò chơi bên ngoài tùy thuộc vào điều kiện thời tiết. Nói chung, quyết định này phụ thuộc vào một số đặc điểm / điều kiện của thời tiết. Vì vậy, bạn có thể thích sử dụng bộ phân loại cây để đưa ra quyết định có nên chơi hay không.

Trong chương này, chúng ta sẽ học cách xây dựng một bộ phân loại cây như vậy trên dữ liệu thời tiết để quyết định các điều kiện chơi.

Đặt dữ liệu kiểm tra

Chúng ta sẽ sử dụng tệp dữ liệu thời tiết đã được xử lý trước từ bài trước. Mở tệp đã lưu bằng cách sử dụngOpen file ... tùy chọn trong Preprocess , nhấp vào Classify và bạn sẽ thấy màn hình sau:

Trước khi bạn tìm hiểu về các bộ phân loại có sẵn, hãy để chúng tôi kiểm tra các tùy chọn Kiểm tra. Bạn sẽ nhận thấy bốn tùy chọn thử nghiệm như được liệt kê bên dưới -

  • Tập huấn luyện
  • Bộ thử nghiệm được cung cấp
  • Cross-validation
  • Phần trăm phân chia

Trừ khi bạn có bộ đào tạo của riêng mình hoặc bộ kiểm tra do khách hàng cung cấp, bạn sẽ sử dụng các tùy chọn xác thực chéo hoặc phân chia theo tỷ lệ phần trăm. Trong xác nhận chéo, bạn có thể đặt số lần gấp mà toàn bộ dữ liệu sẽ được chia nhỏ và sử dụng trong mỗi lần lặp lại đào tạo. Trong phần tách phần trăm, bạn sẽ chia dữ liệu giữa đào tạo và thử nghiệm bằng cách sử dụng phần trăm phân chia đã đặt.

Bây giờ, hãy giữ nguyên giá trị mặc định play tùy chọn cho lớp đầu ra -

Tiếp theo, bạn sẽ chọn bộ phân loại.

Chọn bộ phân loại

Nhấp vào nút Chọn và chọn bộ phân loại sau:

weka→classifiers>trees>J48

Điều này được hiển thị trong ảnh chụp màn hình bên dưới -

Bấm vào Startđể bắt đầu quá trình phân loại. Sau một thời gian, kết quả phân loại sẽ được hiển thị trên màn hình của bạn như được hiển thị ở đây -

Hãy để chúng tôi kiểm tra đầu ra được hiển thị ở phía bên phải của màn hình.

Nó cho biết kích thước của cây là 6. Bạn sẽ rất nhanh chóng nhìn thấy hình ảnh đại diện của cái cây. Trong Tóm tắt, nó nói rằng các trường hợp được phân loại chính xác là 2 và các trường hợp được phân loại không chính xác là 3, Nó cũng nói rằng sai số tuyệt đối tương đối là 110%. Nó cũng cho thấy Ma trận nhầm lẫn. Đi vào phân tích các kết quả này nằm ngoài phạm vi của hướng dẫn này. Tuy nhiên, từ những kết quả này, bạn có thể dễ dàng nhận ra rằng việc phân loại không được chấp nhận và bạn sẽ cần thêm dữ liệu để phân tích, để tinh chỉnh lựa chọn tính năng, xây dựng lại mô hình, v.v. cho đến khi bạn hài lòng với độ chính xác của mô hình. Dù sao, đó là tất cả những gì WEKA hướng đến. Nó cho phép bạn kiểm tra ý tưởng của mình một cách nhanh chóng.

Hình dung kết quả

Để xem biểu diễn trực quan của kết quả, hãy nhấp chuột phải vào kết quả trong Result listcái hộp. Một số tùy chọn sẽ bật lên trên màn hình như được hiển thị ở đây -

Lựa chọn Visualize tree để có được hình ảnh đại diện trực quan của cây truyền tải như trong ảnh chụp màn hình bên dưới -

Lựa chọn Visualize classifier errors sẽ vẽ biểu đồ kết quả phân loại như được hiển thị ở đây -

A cross đại diện cho một phiên bản được phân loại chính xác trong khi squaresđại diện cho các trường hợp được phân loại không chính xác. Ở góc dưới bên trái của mảnh đất, bạn thấycross điều đó chỉ ra nếu outlook sau đó nắng playtro choi. Vì vậy, đây là một trường hợp được phân loại chính xác. Để xác định vị trí các phiên bản, bạn có thể giới thiệu một số jitter trong đó bằng cách trượtjitter thanh trượt.

Cốt truyện hiện tại là outlook đấu với play. Chúng được biểu thị bằng hai hộp danh sách thả xuống ở đầu màn hình.

Bây giờ, hãy thử một lựa chọn khác nhau trong mỗi hộp này và chú ý cách trục X & Y thay đổi. Điều tương tự cũng có thể đạt được bằng cách sử dụng các dải ngang ở phía bên tay phải của mảnh đất. Mỗi dải đại diện cho một thuộc tính. Nhấp chuột trái vào dải đặt thuộc tính đã chọn trên trục X trong khi nhấp chuột phải sẽ đặt thuộc tính trên trục Y.

Có một số âm mưu khác được cung cấp để bạn phân tích sâu hơn. Sử dụng chúng một cách thận trọng để tinh chỉnh mô hình của bạn. Một trong những âm mưu củaCost/Benefit analysis được hiển thị bên dưới để bạn tham khảo nhanh.

Giải thích phân tích trong các biểu đồ này nằm ngoài phạm vi của hướng dẫn này. Người đọc được khuyến khích nâng cao kiến ​​thức về phân tích các thuật toán học máy.

Trong chương tiếp theo, chúng ta sẽ tìm hiểu bộ thuật toán học máy tiếp theo, đó là phân cụm.