Khai thác dữ liệu - Đánh giá
Kho dữ liệu
Kho dữ liệu thể hiện các đặc điểm sau để hỗ trợ quá trình ra quyết định của ban quản lý:
Subject Oriented- Kho dữ liệu được định hướng theo chủ đề vì nó cung cấp cho chúng ta thông tin xung quanh một chủ thể hơn là các hoạt động liên tục của tổ chức. Các đối tượng này có thể là sản phẩm, khách hàng, nhà cung cấp, bán hàng, doanh thu, v.v. Kho dữ liệu không tập trung vào các hoạt động đang diễn ra mà nó tập trung vào việc mô hình hóa và phân tích dữ liệu để ra quyết định.
Integrated - Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ các nguồn không đồng nhất như cơ sở dữ liệu quan hệ, tệp phẳng, v.v ... Sự tích hợp này nâng cao hiệu quả phân tích dữ liệu.
Time Variant- Dữ liệu được thu thập trong kho dữ liệu được xác định với một khoảng thời gian cụ thể. Dữ liệu trong kho dữ liệu cung cấp thông tin theo quan điểm lịch sử.
Non-volatile- Không biến đổi có nghĩa là dữ liệu trước đó không bị xóa khi dữ liệu mới được thêm vào. Kho dữ liệu được tách biệt với cơ sở dữ liệu hoạt động do đó những thay đổi thường xuyên trong cơ sở dữ liệu hoạt động không được phản ánh trong kho dữ liệu.
Kho dữ liệu
Kho dữ liệu là quá trình xây dựng và sử dụng kho dữ liệu. Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ nhiều nguồn không đồng nhất. Nó hỗ trợ báo cáo phân tích, truy vấn có cấu trúc và / hoặc đặc biệt và ra quyết định.
Kho dữ liệu liên quan đến việc làm sạch dữ liệu, tích hợp dữ liệu và hợp nhất dữ liệu. Để tích hợp cơ sở dữ liệu không đồng nhất, chúng tôi có hai cách tiếp cận sau:
- Phương pháp tiếp cận theo hướng truy vấn
- Cập nhật phương pháp tiếp cận theo hướng
Phương pháp tiếp cận theo hướng truy vấn
Đây là cách tiếp cận truyền thống để tích hợp cơ sở dữ liệu không đồng nhất. Cách tiếp cận này được sử dụng để xây dựng trình bao bọc và tích hợp trên nhiều cơ sở dữ liệu không đồng nhất. Các bộ tích hợp này còn được gọi là bộ hòa giải.
Quy trình tiếp cận theo hướng truy vấn
Khi một truy vấn được đưa ra cho phía máy khách, một từ điển siêu dữ liệu sẽ dịch truy vấn đó thành các truy vấn, phù hợp với từng trang web không đồng nhất có liên quan.
Bây giờ các truy vấn này được ánh xạ và gửi đến bộ xử lý truy vấn cục bộ.
Kết quả từ các trang web không đồng nhất được tích hợp vào một bộ câu trả lời toàn cầu.
Nhược điểm
Cách tiếp cận này có những nhược điểm sau:
Phương pháp tiếp cận theo hướng truy vấn cần các quy trình tích hợp và lọc phức tạp.
Nó rất kém hiệu quả và rất tốn kém cho các truy vấn thường xuyên.
Cách tiếp cận này tốn kém cho các truy vấn yêu cầu tổng hợp.
Phương pháp tiếp cận theo hướng cập nhật
Các hệ thống kho dữ liệu ngày nay tuân theo cách tiếp cận theo hướng cập nhật hơn là cách tiếp cận truyền thống đã thảo luận trước đó. Trong cách tiếp cận theo hướng cập nhật, thông tin từ nhiều nguồn không đồng nhất được tích hợp trước và lưu trữ trong kho. Thông tin này có sẵn để truy vấn và phân tích trực tiếp.
Ưu điểm
Cách tiếp cận này có những ưu điểm sau:
Cách làm này mang lại hiệu suất cao.
Dữ liệu có thể được sao chép, xử lý, tích hợp, chú thích, tóm tắt và cấu trúc trước trong kho dữ liệu ngữ nghĩa.
Xử lý truy vấn không yêu cầu giao diện với xử lý tại các nguồn cục bộ.
Từ Kho dữ liệu (OLAP) đến Khai thác dữ liệu (OLAM)
Khai thác phân tích trực tuyến tích hợp với Xử lý phân tích trực tuyến với kiến thức khai thác và khai thác dữ liệu trong cơ sở dữ liệu đa chiều. Đây là sơ đồ cho thấy sự tích hợp của cả OLAP và OLAM -
Tầm quan trọng của OLAM
OLAM quan trọng vì những lý do sau:
High quality of data in data warehouses- Các công cụ khai thác dữ liệu được yêu cầu để hoạt động trên dữ liệu tích hợp, nhất quán và được làm sạch. Các bước này rất tốn kém trong việc xử lý trước dữ liệu. Các kho dữ liệu được xây dựng bằng cách xử lý trước như vậy là nguồn dữ liệu chất lượng cao có giá trị cho OLAP và cả khai thác dữ liệu.
Available information processing infrastructure surrounding data warehouses - Cơ sở hạ tầng xử lý thông tin đề cập đến việc truy cập, tích hợp, hợp nhất và chuyển đổi nhiều cơ sở dữ liệu không đồng nhất, các phương tiện dịch vụ và truy cập web, các công cụ báo cáo và phân tích OLAP.
OLAP−based exploratory data analysis- Phân tích dữ liệu thăm dò là cần thiết để khai thác dữ liệu hiệu quả. OLAM cung cấp cơ sở để khai thác dữ liệu trên các tập con dữ liệu khác nhau và ở các mức độ trừu tượng khác nhau.
Online selection of data mining functions - Tích hợp OLAP với nhiều chức năng khai thác dữ liệu và khai thác phân tích trực tuyến cung cấp cho người dùng sự linh hoạt trong việc lựa chọn các chức năng khai thác dữ liệu mong muốn và hoán đổi các tác vụ khai thác dữ liệu một cách linh hoạt.