Khai thác dữ liệu - Phân loại Bayes
Phân loại Bayes dựa trên Định lý Bayes. Bộ phân loại Bayes là bộ phân loại thống kê. Bộ phân loại Bayes có thể dự đoán xác suất thành viên của lớp chẳng hạn như xác suất mà một bộ giá trị nhất định thuộc về một lớp cụ thể.
Định lý Baye
Định lý Bayes được đặt theo tên của Thomas Bayes. Có hai loại xác suất -
- Xác suất sau [P (H / X)]
- Xác suất trước [P (H)]
trong đó X là bộ dữ liệu và H là một số giả thuyết.
Theo Định lý Bayes,
Mạng lưới tín ngưỡng Bayes
Mạng Niềm tin Bayes chỉ định các phân phối xác suất có điều kiện chung. Chúng còn được gọi là Mạng Niềm tin, Mạng Bayes, hoặc Mạng Xác suất.
Mạng Belief cho phép xác định tính độc lập có điều kiện của lớp giữa các tập con của các biến.
Nó cung cấp một mô hình đồ họa về mối quan hệ nhân quả mà việc học tập có thể được thực hiện.
Chúng ta có thể sử dụng Mạng Bayes đã được đào tạo để phân loại.
Có hai thành phần xác định một Mạng lưới Niềm tin Bayes -
- Đồ thị vòng có hướng
- Một tập hợp các bảng xác suất có điều kiện
Đồ thị Acyclic có hướng
- Mỗi nút trong đồ thị xoay chiều có hướng biểu diễn một biến ngẫu nhiên.
- Biến này có thể có giá trị rời rạc hoặc liên tục.
- Các biến này có thể tương ứng với thuộc tính thực tế được cung cấp trong dữ liệu.
Biểu diễn đồ thị theo chu kỳ có hướng
Biểu đồ sau đây cho thấy một đồ thị xoay chiều có hướng cho sáu biến Boolean.
Cung trong sơ đồ cho phép biểu diễn kiến thức nhân quả. Ví dụ, ung thư phổi bị ảnh hưởng bởi tiền sử gia đình của một người bị ung thư phổi, cũng như việc người đó có hút thuốc hay không. Điều đáng chú ý là biến PositiveXray không phụ thuộc vào việc bệnh nhân có tiền sử gia đình bị ung thư phổi hay bệnh nhân là người hút thuốc, vì chúng tôi biết rằng bệnh nhân bị ung thư phổi.
Bảng xác suất có điều kiện
Bảng xác suất có điều kiện cho các giá trị của biến LungCancer (LC) hiển thị từng kết hợp có thể có của các giá trị của các nút cha của nó, FamilyHistory (FH) và Smoker (S) như sau: