OBIEE - Kho dữ liệu
Trong thị trường cạnh tranh ngày nay, hầu hết các công ty thành công đều phản ứng nhanh chóng với những thay đổi và cơ hội của thị trường. Yêu cầu đáp ứng nhanh chóng là sử dụng hiệu quả và hiệu quả dữ liệu và thông tin.“Data Warehouse”là một kho dữ liệu trung tâm được sắp xếp theo danh mục để hỗ trợ những người ra quyết định của tổ chức. Khi dữ liệu được lưu trữ trong kho dữ liệu, nó có thể được truy cập để phân tích.
Thuật ngữ "Kho dữ liệu" được Bill Inmon phát minh lần đầu tiên vào năm 1990. Theo ông, "Kho dữ liệu là một tập hợp dữ liệu theo hướng chủ đề, tích hợp, biến đổi theo thời gian và không biến động để hỗ trợ quá trình ra quyết định của ban quản lý."
Ralph Kimball đã đưa ra định nghĩa về kho dữ liệu dựa trên chức năng của nó. Ông nói, “Kho dữ liệu là một bản sao của dữ liệu giao dịch được cấu trúc cụ thể để truy vấn và phân tích.”
Data Warehouse (DW hoặc DWH) là một hệ thống được sử dụng để phân tích dữ liệu và mục đích báo cáo. Chúng là các kho lưu dữ liệu từ một hoặc nhiều nguồn dữ liệu không đồng nhất. Chúng lưu trữ cả dữ liệu hiện tại và lịch sử và được sử dụng để tạo báo cáo phân tích. DW có thể được sử dụng để tạo trang tổng quan tương tác cho quản lý cấp cao.
Ví dụ: báo cáo phân tích có thể chứa dữ liệu để so sánh hàng quý hoặc để so sánh báo cáo bán hàng hàng năm của một công ty.
Dữ liệu trong DW đến từ nhiều hệ thống hoạt động như bán hàng, nhân sự, tiếp thị, quản lý kho, v.v. Nó chứa dữ liệu lịch sử từ các hệ thống giao dịch khác nhau nhưng nó cũng có thể bao gồm dữ liệu từ các nguồn khác. DW được sử dụng để tách khối lượng công việc xử lý và phân tích dữ liệu khỏi khối lượng công việc giao dịch và cho phép hợp nhất dữ liệu từ một số nguồn dữ liệu.
Nhu cầu về Kho dữ liệu
Ví dụ - Bạn có cơ quan cho vay mua nhà, nơi dữ liệu đến từ nhiều ứng dụng SAP / không phải SAP như tiếp thị, bán hàng, ERP, HRM, v.v. Dữ liệu này được trích xuất, chuyển đổi và tải vào DW. Nếu bạn phải so sánh doanh số hàng quý / hàng năm của một sản phẩm, bạn không thể sử dụng cơ sở dữ liệu hoạt động vì điều này sẽ làm treo hệ thống giao dịch. Đây là lúc nhu cầu sử dụng DW phát sinh.
Đặc điểm của Kho dữ liệu
Một số đặc điểm chính của DW là -
- Nó được sử dụng để báo cáo và phân tích dữ liệu.
- Nó cung cấp một kho lưu trữ trung tâm với dữ liệu được tích hợp từ một hoặc nhiều nguồn.
- Nó lưu trữ dữ liệu hiện tại và lịch sử.
Kho dữ liệu so với Hệ thống giao dịch
Sau đây là một số khác biệt giữa Kho dữ liệu và Cơ sở dữ liệu hoạt động (Hệ thống giao dịch) -
Hệ thống giao dịch được thiết kế cho các khối lượng công việc và giao dịch đã biết như cập nhật hồ sơ người dùng, tìm kiếm hồ sơ, v.v. Tuy nhiên, các giao dịch DW phức tạp hơn và trình bày dạng dữ liệu chung.
Hệ thống giao dịch chứa dữ liệu hiện tại của một tổ chức trong khi DW thường chứa dữ liệu lịch sử.
Hệ thống giao dịch hỗ trợ xử lý song song nhiều giao dịch. Cần có cơ chế kiểm soát và phục hồi đồng thời để duy trì tính nhất quán của cơ sở dữ liệu.
Truy vấn cơ sở dữ liệu hoạt động cho phép đọc và sửa đổi các hoạt động (xóa và cập nhật), trong khi truy vấn OLAP chỉ cần quyền truy cập chỉ đọc dữ liệu được lưu trữ (câu lệnh chọn).
DW liên quan đến việc làm sạch dữ liệu, tích hợp dữ liệu và hợp nhất dữ liệu.
DW có kiến trúc ba lớp - Lớp Nguồn Dữ liệu, Lớp Tích hợp và Lớp Trình bày. Sơ đồ sau đây cho thấy kiến trúc chung của một hệ thống Kho dữ liệu.
Các loại hệ thống kho dữ liệu
Sau đây là các loại hệ thống DW:
- Dữ liệu Mart
- Xử lý phân tích trực tuyến (OLAP)
- Xử lý giao dịch trực tuyến (OLTP)
- Phân tích tiên đoán
Dữ liệu Mart
Data Mart là hình thức DW đơn giản nhất và nó thường tập trung vào một lĩnh vực chức năng duy nhất, chẳng hạn như bán hàng, tài chính hoặc tiếp thị. Do đó, data mart thường chỉ lấy dữ liệu từ một số nguồn dữ liệu.
Nguồn có thể là một hệ thống giao dịch nội bộ, một kho dữ liệu trung tâm hoặc một ứng dụng nguồn dữ liệu bên ngoài. Khử chuẩn hóa là tiêu chuẩn cho các kỹ thuật mô hình dữ liệu trong hệ thống này.
Xử lý phân tích trực tuyến (OLAP)
Hệ thống OLAP chứa ít giao dịch hơn nhưng liên quan đến các phép tính phức tạp như sử dụng Tổng hợp - Tổng, Đếm, Trung bình, v.v.
Tổng hợp là gì?
Chúng tôi lưu các bảng với dữ liệu tổng hợp như hàng năm (1 hàng), hàng quý (4 hàng), hàng tháng (12 hàng) và bây giờ chúng tôi muốn so sánh dữ liệu, chẳng hạn như hàng năm sẽ chỉ xử lý 1 hàng. Tuy nhiên, trong dữ liệu chưa được tổng hợp, tất cả các hàng sẽ được xử lý.
Hệ thống OLAP thường lưu trữ dữ liệu trong các lược đồ đa chiều như Lược đồ Sao, Lược đồ Thiên hà (với các bảng Sự thật và Thứ nguyên được nối theo cách logic).
Trong hệ thống OLAP, thời gian phản hồi để thực hiện một truy vấn là một thước đo hiệu quả. Các ứng dụng OLAP được sử dụng rộng rãi bởi các kỹ thuật Khai phá dữ liệu để lấy dữ liệu từ hệ thống OLAP. Cơ sở dữ liệu OLAP lưu trữ dữ liệu lịch sử tổng hợp trong các lược đồ đa chiều. Hệ thống OLAP có độ trễ dữ liệu vài giờ so với Data Marts, nơi độ trễ thường gần vài ngày.
Xử lý giao dịch trực tuyến (OLTP)
Hệ thống OLTP được biết đến với số lượng lớn các giao dịch trực tuyến ngắn như chèn, cập nhật, xóa, v.v. Hệ thống OLTP cung cấp khả năng xử lý truy vấn nhanh và cũng chịu trách nhiệm cung cấp tính toàn vẹn của dữ liệu trong môi trường đa truy cập.
Đối với hệ thống OLTP, tính hiệu quả được đo lường bằng số lượng giao dịch được xử lý mỗi giây. Hệ thống OLTP thường chỉ chứa dữ liệu hiện tại. Lược đồ được sử dụng để lưu trữ cơ sở dữ liệu giao dịch là mô hình thực thể. Chuẩn hóa được sử dụng cho các kỹ thuật mô hình hóa dữ liệu trong hệ thống OLTP.
OLTP so với OLAP
Hình minh họa sau đây cho thấy những điểm khác biệt chính giữa hệ thống OLTP và OLAP.
Indexes - Trong hệ thống OLTP, chỉ có ít chỉ mục trong khi trong hệ thống OLAP có nhiều chỉ mục để tối ưu hóa hiệu suất.
Joins- Trong hệ thống OLTP, số lượng lớn các phép nối và dữ liệu được chuẩn hóa; tuy nhiên, trong hệ thống OLAP có ít kết nối hơn và không chuẩn hóa.
Aggregation - Trong hệ thống OLTP, dữ liệu không được tổng hợp trong khi trong cơ sở dữ liệu OLAP, nhiều tập hợp hơn được sử dụng.