Kho dữ liệu - Khái niệm
Kho dữ liệu là gì?
Kho dữ liệu là quá trình xây dựng và sử dụng kho dữ liệu. Kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ nhiều nguồn không đồng nhất hỗ trợ báo cáo phân tích, truy vấn có cấu trúc và / hoặc đột xuất và ra quyết định. Kho dữ liệu liên quan đến việc làm sạch dữ liệu, tích hợp dữ liệu và hợp nhất dữ liệu.
Sử dụng thông tin kho dữ liệu
Có các công nghệ hỗ trợ quyết định giúp tận dụng dữ liệu có sẵn trong kho dữ liệu. Những công nghệ này giúp giám đốc điều hành sử dụng kho một cách nhanh chóng và hiệu quả. Họ có thể thu thập dữ liệu, phân tích dữ liệu và đưa ra quyết định dựa trên thông tin hiện có trong kho. Thông tin thu thập được trong kho có thể được sử dụng trong bất kỳ lĩnh vực nào sau đây:
Tuning Production Strategies - Các chiến lược sản phẩm có thể được điều chỉnh tốt bằng cách định vị lại sản phẩm và quản lý danh mục sản phẩm bằng cách so sánh doanh số bán hàng quý hoặc năm.
Customer Analysis - Phân tích khách hàng được thực hiện bằng cách phân tích sở thích mua hàng, thời gian mua hàng, chu kỳ ngân sách, v.v.
Operations Analysis- Kho dữ liệu cũng giúp quản lý quan hệ khách hàng, và thực hiện các chỉnh sửa về môi trường. Thông tin cũng cho phép chúng tôi phân tích hoạt động kinh doanh.
Tích hợp cơ sở dữ liệu không đồng nhất
Để tích hợp cơ sở dữ liệu không đồng nhất, chúng tôi có hai cách tiếp cận:
- Phương pháp tiếp cận theo hướng truy vấn
- Phương pháp tiếp cận theo hướng cập nhật
Phương pháp tiếp cận theo hướng truy vấn
Đây là cách tiếp cận truyền thống để tích hợp cơ sở dữ liệu không đồng nhất. Cách tiếp cận này được sử dụng để xây dựng trình bao bọc và tích hợp trên nhiều cơ sở dữ liệu không đồng nhất. Các bộ tích hợp này còn được gọi là bộ hòa giải.
Quy trình tiếp cận theo hướng truy vấn
Khi truy vấn được cấp cho phía máy khách, từ điển siêu dữ liệu sẽ dịch truy vấn thành một dạng thích hợp cho các trang web không đồng nhất riêng lẻ có liên quan.
Bây giờ các truy vấn này được ánh xạ và gửi đến bộ xử lý truy vấn cục bộ.
Kết quả từ các trang web không đồng nhất được tích hợp vào một bộ câu trả lời toàn cầu.
Nhược điểm
Cách tiếp cận theo hướng truy vấn cần các quy trình tích hợp và lọc phức tạp.
Cách làm này rất kém hiệu quả.
Nó rất tốn kém cho các truy vấn thường xuyên.
Cách tiếp cận này cũng rất tốn kém cho các truy vấn yêu cầu tổng hợp.
Phương pháp tiếp cận theo hướng cập nhật
Đây là một giải pháp thay thế cho cách tiếp cận truyền thống. Các hệ thống kho dữ liệu ngày nay tuân theo cách tiếp cận theo hướng cập nhật hơn là cách tiếp cận truyền thống đã thảo luận trước đó. Trong cách tiếp cận theo hướng cập nhật, thông tin từ nhiều nguồn không đồng nhất được tích hợp trước và được lưu trữ trong kho. Thông tin này có sẵn để truy vấn và phân tích trực tiếp.
Ưu điểm
Cách tiếp cận này có những ưu điểm sau:
Cách làm này mang lại hiệu suất cao.
Dữ liệu được sao chép, xử lý, tích hợp, chú thích, tóm tắt và cấu trúc lại trước trong kho dữ liệu ngữ nghĩa.
Xử lý truy vấn không yêu cầu giao diện để xử lý dữ liệu tại các nguồn cục bộ.
Chức năng của các Công cụ và Tiện ích Kho Dữ liệu
Sau đây là các chức năng của các công cụ và tiện ích kho dữ liệu:
Data Extraction - Liên quan đến việc thu thập dữ liệu từ nhiều nguồn không đồng nhất.
Data Cleaning - Liên quan đến việc tìm kiếm và sửa chữa các lỗi trong dữ liệu.
Data Transformation - Liên quan đến việc chuyển đổi dữ liệu từ định dạng kế thừa sang định dạng kho.
Data Loading - Liên quan đến việc sắp xếp, tóm tắt, hợp nhất, kiểm tra tính toàn vẹn và xây dựng các chỉ mục và phân vùng.
Refreshing - Liên quan đến việc cập nhật từ nguồn dữ liệu vào kho.
Note - Làm sạch dữ liệu và chuyển đổi dữ liệu là những bước quan trọng trong việc nâng cao chất lượng dữ liệu và kết quả khai thác dữ liệu.