Khai thác dữ liệu - Hệ thống
Có rất nhiều hệ thống khai thác dữ liệu có sẵn. Các hệ thống khai thác dữ liệu có thể tích hợp các kỹ thuật sau:
- Phân tích dữ liệu không gian
- Truy xuất thông tin
- Nhận dạng mẫu
- Phân tích hình ảnh
- Xử lý tín hiệu
- Đô họa may tinh
- Công nghệ web
- Business
- Bioinformatics
Phân loại hệ thống khai thác dữ liệu
Hệ thống khai thác dữ liệu có thể được phân loại theo các tiêu chí sau:
- Công nghệ cơ sở dữ liệu
- Statistics
- Học máy
- Khoa học thông tin
- Visualization
- Các kỷ luật khác
Ngoài ra, một hệ thống khai thác dữ liệu cũng có thể được phân loại dựa trên loại (a) cơ sở dữ liệu được khai thác, (b) kiến thức được khai thác, (c) kỹ thuật được sử dụng và (d) ứng dụng được điều chỉnh.
Phân loại dựa trên cơ sở dữ liệu được khai thác
Chúng ta có thể phân loại hệ thống khai thác dữ liệu theo loại cơ sở dữ liệu được khai thác. Hệ thống cơ sở dữ liệu có thể được phân loại theo các tiêu chí khác nhau như mô hình dữ liệu, kiểu dữ liệu, ... Và hệ thống khai thác dữ liệu cũng có thể được phân loại tương ứng.
Ví dụ: nếu chúng ta phân loại cơ sở dữ liệu theo mô hình dữ liệu, thì chúng ta có thể có một hệ thống khai thác quan hệ, giao dịch, quan hệ đối tượng hoặc kho dữ liệu.
Phân loại dựa trên loại kiến thức được khai thác
Chúng ta có thể phân loại hệ thống khai thác dữ liệu theo loại kiến thức được khai thác. Nó có nghĩa là hệ thống khai thác dữ liệu được phân loại dựa trên các chức năng như -
- Characterization
- Discrimination
- Phân tích liên kết và tương quan
- Classification
- Prediction
- Phân tích ngoại lệ
- Phân tích tiến hóa
Phân loại dựa trên các kỹ thuật được sử dụng
Chúng ta có thể phân loại một hệ thống khai thác dữ liệu theo loại kỹ thuật được sử dụng. Chúng tôi có thể mô tả các kỹ thuật này theo mức độ tương tác của người dùng liên quan hoặc các phương pháp phân tích được sử dụng.
Phân loại dựa trên các ứng dụng được điều chỉnh
Chúng tôi có thể phân loại một hệ thống khai thác dữ liệu theo các ứng dụng được điều chỉnh. Các ứng dụng này như sau:
- Finance
- Telecommunications
- DNA
- Thị trường chứng khoán
Tích hợp Hệ thống khai thác dữ liệu với Hệ thống DB / DW
Nếu một hệ thống khai thác dữ liệu không được tích hợp với cơ sở dữ liệu hoặc hệ thống kho dữ liệu, thì sẽ không có hệ thống nào để giao tiếp. Lược đồ này được gọi là lược đồ không ghép nối. Trong sơ đồ này, trọng tâm chính là thiết kế khai thác dữ liệu và phát triển các thuật toán hiệu quả và hiệu quả để khai thác các tập dữ liệu có sẵn.
Danh sách các Lược đồ tích hợp như sau:
No Coupling- Trong sơ đồ này, hệ thống khai thác dữ liệu không sử dụng bất kỳ chức năng nào của cơ sở dữ liệu hoặc kho dữ liệu. Nó tìm nạp dữ liệu từ một nguồn cụ thể và xử lý dữ liệu đó bằng cách sử dụng một số thuật toán khai thác dữ liệu. Kết quả khai thác dữ liệu được lưu trữ trong một tệp khác.
Loose Coupling- Trong sơ đồ này, hệ thống khai thác dữ liệu có thể sử dụng một số chức năng của cơ sở dữ liệu và hệ thống kho dữ liệu. Nó lấy dữ liệu từ hệ thống hô hấp dữ liệu do các hệ thống này quản lý và thực hiện khai thác dữ liệu trên dữ liệu đó. Sau đó, nó lưu trữ kết quả khai thác trong một tệp hoặc ở một nơi được chỉ định trong cơ sở dữ liệu hoặc trong kho dữ liệu.
Semi−tight Coupling - Trong sơ đồ này, hệ thống khai thác dữ liệu được liên kết với cơ sở dữ liệu hoặc hệ thống kho dữ liệu và thêm vào đó, việc triển khai hiệu quả một số nguyên thủy khai thác dữ liệu có thể được cung cấp trong cơ sở dữ liệu.
Tight coupling- Trong sơ đồ ghép nối này, hệ thống khai thác dữ liệu được tích hợp nhuần nhuyễn vào cơ sở dữ liệu hoặc hệ thống kho dữ liệu. Hệ thống con khai thác dữ liệu được coi như một thành phần chức năng của hệ thống thông tin.