Weka - Xử lý trước dữ liệu

Dữ liệu được thu thập từ hiện trường có nhiều điều không mong muốn dẫn đến phân tích sai. Ví dụ: dữ liệu có thể chứa các trường rỗng, nó có thể chứa các cột không liên quan đến phân tích hiện tại, v.v. Do đó, dữ liệu phải được xử lý trước để đáp ứng các yêu cầu của loại phân tích bạn đang tìm kiếm. Điều này được thực hiện trong mô-đun tiền xử lý.

Để chứng minh các tính năng có sẵn trong tiền xử lý, chúng tôi sẽ sử dụng Weather cơ sở dữ liệu được cung cấp trong cài đặt.

Sử dụng Open file ... tùy chọn trong Preprocess thẻ chọn weather-nominal.arff tập tin.

Khi bạn mở tệp, màn hình của bạn trông giống như được hiển thị ở đây -

Màn hình này cho chúng ta biết một số điều về dữ liệu đã tải, sẽ được thảo luận thêm trong chương này.

Hiểu dữ liệu

Đầu tiên chúng ta hãy xem xét các Current relationcửa sổ phụ. Nó hiển thị tên của cơ sở dữ liệu hiện đang được tải. Bạn có thể suy ra hai điểm từ cửa sổ phụ này -

Có 14 trường hợp - số hàng trong bảng.
Bảng chứa 5 thuộc tính - các trường, sẽ được thảo luận trong các phần sắp tới.

Ở phía bên trái, lưu ý Attributes cửa sổ phụ hiển thị các trường khác nhau trong cơ sở dữ liệu.

Các weathercơ sở dữ liệu chứa năm trường - triển vọng, nhiệt độ, độ ẩm, gió và chơi. Khi bạn chọn một thuộc tính từ danh sách này bằng cách nhấp vào nó, các chi tiết khác về bản thân thuộc tính đó được hiển thị ở phía bên tay phải.

Hãy để chúng tôi chọn thuộc tính nhiệt độ trước. Khi bạn nhấp vào nó, bạn sẽ thấy màn hình sau:

bên trong Selected Attribute subwindow, bạn có thể quan sát những điều sau:

Tên và loại thuộc tính được hiển thị.
Loại cho temperature thuộc tính là Nominal.
Số lượng Missing giá trị bằng không.
Có ba giá trị khác biệt không có giá trị duy nhất.
Bảng bên dưới thông tin này hiển thị các giá trị danh nghĩa cho trường này là nóng, nhẹ và lạnh.
Nó cũng hiển thị số lượng và trọng lượng theo tỷ lệ phần trăm cho mỗi giá trị danh nghĩa.

Ở cuối cửa sổ, bạn sẽ thấy phần trình bày trực quan của class các giá trị.

Nếu bạn nhấp vào Visualize All , bạn sẽ có thể xem tất cả các tính năng trong một cửa sổ duy nhất như được hiển thị ở đây -

Xóa các thuộc tính

Đôi khi, dữ liệu mà bạn muốn sử dụng để xây dựng mô hình có nhiều trường không liên quan. Ví dụ: cơ sở dữ liệu khách hàng có thể chứa số điện thoại di động của anh ta có liên quan trong việc phân tích xếp hạng tín dụng của anh ta.

Để loại bỏ Thuộc tính / s, hãy chọn chúng và nhấp vào Remove ở dưới cùng.

Các thuộc tính đã chọn sẽ bị xóa khỏi cơ sở dữ liệu. Sau khi xử lý trước đầy đủ dữ liệu, bạn có thể lưu dữ liệu đó để xây dựng mô hình.

Tiếp theo, bạn sẽ học cách xử lý trước dữ liệu bằng cách áp dụng các bộ lọc trên dữ liệu này.

Áp dụng bộ lọc

Một số kỹ thuật học máy như khai thác quy tắc kết hợp yêu cầu dữ liệu phân loại. Để minh họa việc sử dụng các bộ lọc, chúng tôi sẽ sử dụngweather-numeric.arff cơ sở dữ liệu chứa hai numeric thuộc tính - temperature và humidity.

Chúng tôi sẽ chuyển đổi chúng thành nominalbằng cách áp dụng bộ lọc trên dữ liệu thô của chúng tôi. Bấm vàoChoose nút trong Filter subwindow và chọn bộ lọc sau -

weka→filters→supervised→attribute→Discretize

Bấm vào Apply nút và kiểm tra temperature và / hoặc humiditythuộc tính. Bạn sẽ nhận thấy rằng chúng đã thay đổi từ kiểu số sang kiểu danh nghĩa.

Bây giờ chúng ta hãy xem xét một bộ lọc khác. Giả sử bạn muốn chọn các thuộc tính tốt nhất để quyết địnhplay. Chọn và áp dụng bộ lọc sau -

weka→filters→supervised→attribute→AttributeSelection

Bạn sẽ nhận thấy rằng nó loại bỏ các thuộc tính nhiệt độ và độ ẩm khỏi cơ sở dữ liệu.

Sau khi bạn hài lòng với việc xử lý trước dữ liệu của mình, hãy lưu dữ liệu bằng cách nhấp vào Save... cái nút. Bạn sẽ sử dụng tệp đã lưu này để xây dựng mô hình.

Trong chương tiếp theo, chúng ta sẽ khám phá việc xây dựng mô hình bằng cách sử dụng một số thuật toán ML được xác định trước.