Khai thác dữ liệu - Thuật ngữ
Khai thác dữ liệu
Khai phá dữ liệu được định nghĩa là trích xuất thông tin từ một tập hợp dữ liệu khổng lồ. Nói cách khác, chúng ta có thể nói rằng khai thác dữ liệu là khai thác kiến thức từ dữ liệu. Thông tin này có thể được sử dụng cho bất kỳ ứng dụng nào sau đây:
- Phân tích thị trường
- Phát hiện gian lận
- Duy trì khách hàng
- Kiểm soát sản xuất
- Khám phá Khoa học
Công cụ khai thác dữ liệu
Công cụ khai thác dữ liệu rất cần thiết đối với hệ thống khai thác dữ liệu. Nó bao gồm một tập hợp các mô-đun chức năng thực hiện các chức năng sau:
- Characterization
- Phân tích liên kết và tương quan
- Classification
- Prediction
- Phân tích cluster
- Phân tích ngoại lệ
- Phân tích tiến hóa
Kiến thức cơ bản
Đây là kiến thức miền. Kiến thức này được sử dụng để hướng dẫn tìm kiếm hoặc đánh giá mức độ thú vị của các mẫu kết quả.
Khám phá tri thức
Một số người coi khai thác dữ liệu giống như khám phá tri thức, trong khi những người khác coi khai thác dữ liệu là một bước thiết yếu trong quá trình khám phá tri thức. Đây là danh sách các bước liên quan đến quá trình khám phá kiến thức -
- Làm sạch dữ liệu
- Tích hợp dữ liệu
- Lựa chọn dữ liệu
- Chuyển đổi dữ liệu
- Khai thác dữ liệu
- Đánh giá mẫu
- Trình bày kiến thức
Giao diện người dùng
Giao diện người dùng là mô-đun của hệ thống khai thác dữ liệu giúp giao tiếp giữa người dùng và hệ thống khai thác dữ liệu. Giao diện người dùng cho phép các chức năng sau:
- Tương tác với hệ thống bằng cách chỉ định nhiệm vụ truy vấn khai thác dữ liệu.
- Cung cấp thông tin để giúp tập trung tìm kiếm.
- Khai thác dựa trên kết quả khai thác dữ liệu trung gian.
- Duyệt qua cơ sở dữ liệu và các lược đồ kho dữ liệu hoặc cấu trúc dữ liệu.
- Đánh giá các mẫu đã khai thác.
- Hình dung các mẫu ở các dạng khác nhau.
Tích hợp dữ liệu
Tích hợp dữ liệu là một kỹ thuật tiền xử lý dữ liệu kết hợp dữ liệu từ nhiều nguồn dữ liệu không đồng nhất thành một kho dữ liệu nhất quán. Tích hợp dữ liệu có thể liên quan đến dữ liệu không nhất quán và do đó cần làm sạch dữ liệu.
Làm sạch dữ liệu
Làm sạch dữ liệu là một kỹ thuật được áp dụng để loại bỏ dữ liệu bị nhiễu và sửa các điểm không nhất quán trong dữ liệu. Làm sạch dữ liệu bao gồm các phép biến đổi để sửa dữ liệu sai. Làm sạch dữ liệu được thực hiện như một bước tiền xử lý dữ liệu trong khi chuẩn bị dữ liệu cho một kho dữ liệu.
Lựa chọn dữ liệu
Lựa chọn dữ liệu là quá trình mà dữ liệu liên quan đến nhiệm vụ phân tích được truy xuất từ cơ sở dữ liệu. Đôi khi việc chuyển đổi và hợp nhất dữ liệu được thực hiện trước quá trình lựa chọn dữ liệu.
Cụm
Cụm đề cập đến một nhóm các đối tượng giống nhau. Phân tích cụm đề cập đến việc hình thành nhóm các đối tượng rất giống nhau nhưng khác biệt nhiều so với các đối tượng trong các cụm khác.
Chuyển đổi dữ liệu
Trong bước này, dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp để khai thác, bằng cách thực hiện các thao tác tóm tắt hoặc tổng hợp.