Khai thác dữ liệu - Vấn đề
Khai thác dữ liệu không phải là một nhiệm vụ dễ dàng, vì các thuật toán được sử dụng có thể rất phức tạp và dữ liệu không phải lúc nào cũng có sẵn tại một nơi. Nó cần được tích hợp từ nhiều nguồn dữ liệu không đồng nhất khác nhau. Những yếu tố này cũng tạo ra một số vấn đề. Ở đây trong hướng dẫn này, chúng ta sẽ thảo luận về các vấn đề chính liên quan đến -
- Phương pháp khai thác và Tương tác người dùng
- Vấn đề hiệu năng
- Các vấn đề về loại dữ liệu đa dạng
Sơ đồ sau đây mô tả các vấn đề chính.
Các vấn đề về phương pháp khai thác và tương tác người dùng
Nó đề cập đến các loại vấn đề sau:
Mining different kinds of knowledge in databases- Những người dùng khác nhau có thể quan tâm đến các loại kiến thức khác nhau. Do đó, việc khai thác dữ liệu là cần thiết để bao gồm một loạt các nhiệm vụ khám phá tri thức.
Interactive mining of knowledge at multiple levels of abstraction - Quá trình khai thác dữ liệu cần có tính tương tác vì nó cho phép người dùng tập trung tìm kiếm các mẫu, cung cấp và tinh chỉnh các yêu cầu khai thác dữ liệu dựa trên kết quả trả về.
Incorporation of background knowledge- Để hướng dẫn quá trình khám phá và để thể hiện các mẫu đã khám phá, có thể sử dụng kiến thức nền tảng. Kiến thức nền tảng có thể được sử dụng để thể hiện các mẫu đã khám phá không chỉ bằng những thuật ngữ ngắn gọn mà còn ở nhiều cấp độ trừu tượng.
Data mining query languages and ad hoc data mining - Ngôn ngữ truy vấn khai thác dữ liệu cho phép người dùng mô tả các tác vụ khai thác đặc biệt, nên được tích hợp với ngôn ngữ truy vấn kho dữ liệu và được tối ưu hóa để khai thác dữ liệu hiệu quả và linh hoạt.
Presentation and visualization of data mining results- Một khi các mẫu được phát hiện, nó cần được thể hiện bằng các ngôn ngữ cấp cao và biểu diễn trực quan. Các đại diện này phải dễ hiểu.
Handling noisy or incomplete data- Các phương pháp làm sạch dữ liệu được yêu cầu để xử lý nhiễu và các đối tượng không hoàn chỉnh trong khi khai thác các quy tắc dữ liệu. Nếu không có các phương pháp làm sạch dữ liệu thì độ chính xác của các mẫu được phát hiện sẽ kém.
Pattern evaluation - Các mẫu được phát hiện phải thú vị vì chúng đại diện cho kiến thức phổ thông hoặc thiếu tính mới.
Vấn đề hiệu năng
Có thể có các vấn đề liên quan đến hiệu suất như sau:
Efficiency and scalability of data mining algorithms - Để trích xuất hiệu quả thông tin từ lượng dữ liệu khổng lồ trong cơ sở dữ liệu, thuật toán khai thác dữ liệu phải hiệu quả và có khả năng mở rộng.
Parallel, distributed, and incremental mining algorithms- Các yếu tố như kích thước khổng lồ của cơ sở dữ liệu, sự phân bố rộng rãi của dữ liệu và độ phức tạp của các phương pháp khai thác dữ liệu thúc đẩy sự phát triển của các thuật toán khai thác dữ liệu song song và phân tán. Các thuật toán này chia dữ liệu thành các phân vùng được tiếp tục xử lý theo kiểu song song. Sau đó, kết quả từ các phân vùng được hợp nhất. Các thuật toán gia tăng, cập nhật cơ sở dữ liệu mà không cần khai thác lại dữ liệu từ đầu.
Các vấn đề về loại dữ liệu đa dạng
Handling of relational and complex types of data - Cơ sở dữ liệu có thể chứa các đối tượng dữ liệu phức tạp, các đối tượng dữ liệu đa phương tiện, dữ liệu không gian, dữ liệu thời gian, v.v. Không thể cho một hệ thống khai thác tất cả các loại dữ liệu này.
Mining information from heterogeneous databases and global information systems- Dữ liệu có sẵn ở các nguồn dữ liệu khác nhau trên mạng LAN hoặc WAN. Nguồn dữ liệu này có thể có cấu trúc, bán cấu trúc hoặc không có cấu trúc. Do đó, việc khai thác kiến thức từ chúng tạo thêm thách thức cho việc khai thác dữ liệu.