Kho dữ liệu - Khái niệm siêu dữ liệu
Siêu dữ liệu là gì?
Siêu dữ liệu được định nghĩa đơn giản là dữ liệu về dữ liệu. Dữ liệu được sử dụng để đại diện cho dữ liệu khác được gọi là siêu dữ liệu. Ví dụ: chỉ mục của một cuốn sách đóng vai trò là siêu dữ liệu cho nội dung trong sách. Nói cách khác, chúng ta có thể nói rằng siêu dữ liệu là dữ liệu tóm tắt dẫn chúng ta đến dữ liệu chi tiết. Về kho dữ liệu, chúng ta có thể định nghĩa siêu dữ liệu như sau.
Siêu dữ liệu là bản đồ đường dẫn đến kho dữ liệu.
Siêu dữ liệu trong kho dữ liệu xác định các đối tượng kho.
Siêu dữ liệu hoạt động như một thư mục. Thư mục này giúp hệ thống hỗ trợ quyết định định vị nội dung của kho dữ liệu.
Note- Trong kho dữ liệu, chúng tôi tạo siêu dữ liệu cho các tên dữ liệu và định nghĩa của một kho dữ liệu nhất định. Cùng với siêu dữ liệu này, siêu dữ liệu bổ sung cũng được tạo để ghi dấu thời gian cho bất kỳ dữ liệu được trích xuất nào, nguồn của dữ liệu được trích xuất.
Danh mục siêu dữ liệu
Siêu dữ liệu có thể được phân loại rộng rãi thành ba loại:
Business Metadata - Nó có thông tin sở hữu dữ liệu, định nghĩa kinh doanh và các chính sách thay đổi.
Technical Metadata- Nó bao gồm tên hệ thống cơ sở dữ liệu, tên bảng và cột và kích thước, kiểu dữ liệu và các giá trị cho phép. Siêu dữ liệu kỹ thuật cũng bao gồm thông tin cấu trúc như chỉ số và thuộc tính khóa chính và khóa ngoại.
Operational Metadata- Nó bao gồm tiền tệ của dữ liệu và dòng dữ liệu. Đơn vị tiền tệ của dữ liệu có nghĩa là dữ liệu đang hoạt động, được lưu trữ hay bị xóa. Dòng dữ liệu có nghĩa là lịch sử của dữ liệu được di chuyển và chuyển đổi được áp dụng trên đó.
Vai trò của siêu dữ liệu
Siêu dữ liệu có một vai trò rất quan trọng trong kho dữ liệu. Vai trò của siêu dữ liệu trong kho khác với dữ liệu kho, nhưng nó vẫn đóng một vai trò quan trọng. Các vai trò khác nhau của siêu dữ liệu được giải thích bên dưới.
Siêu dữ liệu hoạt động như một thư mục.
Thư mục này giúp hệ thống hỗ trợ quyết định định vị nội dung của kho dữ liệu.
Siêu dữ liệu giúp hệ thống hỗ trợ ra quyết định ánh xạ dữ liệu khi dữ liệu được chuyển đổi từ môi trường hoạt động sang môi trường kho dữ liệu.
Siêu dữ liệu giúp tóm tắt giữa dữ liệu chi tiết hiện tại và dữ liệu được tóm tắt cao.
Siêu dữ liệu cũng giúp tóm tắt giữa dữ liệu chi tiết nhẹ và dữ liệu được tóm tắt cao.
Siêu dữ liệu được sử dụng cho các công cụ truy vấn.
Siêu dữ liệu được sử dụng trong các công cụ khai thác và làm sạch.
Siêu dữ liệu được sử dụng trong các công cụ báo cáo.
Siêu dữ liệu được sử dụng trong các công cụ chuyển đổi.
Siêu dữ liệu đóng một vai trò quan trọng trong việc tải các chức năng.
Sơ đồ sau đây cho thấy vai trò của siêu dữ liệu.
Kho lưu trữ siêu dữ liệu
Kho siêu dữ liệu là một phần không thể thiếu trong hệ thống kho dữ liệu. Nó có siêu dữ liệu sau:
Definition of data warehouse- Nó bao gồm mô tả cấu trúc của kho dữ liệu. Mô tả được xác định bởi lược đồ, chế độ xem, cấu trúc phân cấp, định nghĩa dữ liệu dẫn xuất, vị trí và nội dung của data mart.
Business metadata - Nó chứa thông tin về quyền sở hữu dữ liệu, định nghĩa kinh doanh và các chính sách thay đổi.
Operational Metadata- Nó bao gồm tiền tệ của dữ liệu và dòng dữ liệu. Đơn vị tiền tệ của dữ liệu có nghĩa là dữ liệu đang hoạt động, được lưu trữ hay bị xóa. Dòng dữ liệu có nghĩa là lịch sử của dữ liệu được di chuyển và chuyển đổi được áp dụng trên đó.
Data for mapping from operational environment to data warehouse - Nó bao gồm cơ sở dữ liệu nguồn và nội dung của chúng, trích xuất dữ liệu, dọn dẹp phân vùng dữ liệu, quy tắc chuyển đổi, quy tắc làm mới và xóa dữ liệu.
Algorithms for summarization - Nó bao gồm các thuật toán thứ nguyên, dữ liệu về mức độ chi tiết, tổng hợp, tóm tắt, v.v.
Những thách thức đối với quản lý siêu dữ liệu
Tầm quan trọng của siêu dữ liệu không thể được phóng đại. Siêu dữ liệu giúp tăng độ chính xác của báo cáo, xác thực việc chuyển đổi dữ liệu và đảm bảo tính chính xác của các phép tính. Siêu dữ liệu cũng thực thi định nghĩa các điều khoản kinh doanh cho người dùng cuối là doanh nghiệp. Với tất cả những cách sử dụng siêu dữ liệu này, nó cũng có những thách thức. Một số thách thức được thảo luận dưới đây.
Siêu dữ liệu trong một tổ chức lớn nằm rải rác trong tổ chức. Siêu dữ liệu này được trải rộng trong bảng tính, cơ sở dữ liệu và ứng dụng.
Siêu dữ liệu có thể có trong tệp văn bản hoặc tệp đa phương tiện. Để sử dụng dữ liệu này cho các giải pháp quản lý thông tin, nó phải được xác định chính xác.
Không có tiêu chuẩn được chấp nhận trong toàn ngành. Các nhà cung cấp giải pháp quản lý dữ liệu có trọng tâm hẹp.
Không có phương pháp chuyển siêu dữ liệu nào dễ dàng và được chấp nhận.