Kho dữ liệu - Đánh dấu dữ liệu
Tại sao chúng ta cần một Data Mart?
Dưới đây là những lý do để tạo data mart -
Phân vùng dữ liệu để áp đặt access control strategies.
Để tăng tốc các truy vấn bằng cách giảm khối lượng dữ liệu được quét.
Để phân đoạn dữ liệu thành các nền tảng phần cứng khác nhau.
Để cấu trúc dữ liệu theo một hình thức phù hợp với một công cụ truy cập người dùng.
Note- Không lưu dữ liệu vì bất kỳ lý do nào khác vì chi phí hoạt động của dữ liệu marting có thể rất cao. Trước khi kiểm tra dữ liệu, hãy đảm bảo rằng chiến lược kiểm tra dữ liệu phù hợp với giải pháp cụ thể của bạn.
Đánh dấu dữ liệu hiệu quả về chi phí
Thực hiện theo các bước được cung cấp bên dưới để làm cho việc lưu trữ dữ liệu tiết kiệm chi phí -
- Xác định các Tách chức năng
- Xác định Yêu cầu về Công cụ Truy cập Người dùng
- Xác định các vấn đề về kiểm soát truy cập
Xác định các Tách chức năng
Trong bước này, chúng tôi xác định xem tổ chức có sự phân chia chức năng tự nhiên hay không. Chúng tôi tìm kiếm sự phân chia các bộ phận và chúng tôi xác định xem cách các bộ phận sử dụng thông tin có xu hướng tách biệt với phần còn lại của tổ chức hay không. Hãy lấy một ví dụ.
Hãy xem xét một tổ chức bán lẻ, nơi mỗi người bán có trách nhiệm tối đa hóa doanh số bán một nhóm sản phẩm. Về điều này, sau đây là những thông tin có giá trị:
- giao dịch bán hàng trên cơ sở hàng ngày
- dự báo bán hàng trên cơ sở hàng tuần
- vị trí chứng khoán hàng ngày
- biến động chứng khoán hàng ngày
Vì người bán không quan tâm đến các sản phẩm mà họ không kinh doanh, nên việc kiểm tra dữ liệu là một tập hợp con của dữ liệu giao dịch mà nhóm sản phẩm quan tâm. Sơ đồ sau đây cho thấy dữ liệu marting cho những người dùng khác nhau.
Dưới đây là các vấn đề cần lưu ý khi xác định phân tách chức năng -
Cơ cấu của bộ phận có thể thay đổi.
Các sản phẩm có thể chuyển từ bộ phận này sang bộ phận khác.
Người bán có thể truy vấn xu hướng bán hàng của các sản phẩm khác để phân tích điều gì đang xảy ra với việc bán hàng.
Note - Chúng ta cần xác định lợi ích kinh doanh và tính khả thi về kỹ thuật của việc sử dụng data mart.
Xác định Yêu cầu về Công cụ Truy cập Người dùng
Chúng tôi cần các mart dữ liệu để hỗ trợ user access toolsyêu cầu cấu trúc dữ liệu nội bộ. Dữ liệu trong các cấu trúc này nằm ngoài tầm kiểm soát của kho dữ liệu nhưng cần được nhập và cập nhật thường xuyên.
Có một số công cụ điền trực tiếp từ hệ thống nguồn nhưng một số không thể. Do đó, các yêu cầu bổ sung bên ngoài phạm vi của công cụ cần được xác định cho tương lai.
Note - Để đảm bảo tính nhất quán của dữ liệu trên tất cả các công cụ truy cập, dữ liệu không nên được nhập trực tiếp từ kho dữ liệu, thay vào đó mỗi công cụ phải có kho dữ liệu riêng.
Xác định các vấn đề về kiểm soát truy cập
Cần phải có các quy tắc bảo mật để đảm bảo dữ liệu chỉ được truy cập bởi những người dùng được ủy quyền. Ví dụ, một kho dữ liệu cho tổ chức ngân hàng bán lẻ đảm bảo rằng tất cả các tài khoản thuộc cùng một pháp nhân. Luật bảo mật có thể buộc bạn hoàn toàn ngăn chặn việc truy cập vào thông tin không thuộc sở hữu của ngân hàng cụ thể.
Data mart cho phép chúng tôi xây dựng một bức tường hoàn chỉnh bằng cách phân tách vật lý các phân đoạn dữ liệu trong kho dữ liệu. Để tránh các vấn đề về quyền riêng tư có thể xảy ra, dữ liệu chi tiết có thể được xóa khỏi kho dữ liệu. Chúng tôi có thể tạo data mart cho từng pháp nhân và tải nó qua kho dữ liệu, với dữ liệu tài khoản chi tiết.
Thiết kế Data Marts
Data mart nên được thiết kế như một phiên bản nhỏ hơn của giản đồ starflake trong kho dữ liệu và phải phù hợp với thiết kế cơ sở dữ liệu của kho dữ liệu. Nó giúp duy trì quyền kiểm soát các cá thể cơ sở dữ liệu.
Các bản tóm tắt được trộn dữ liệu theo cách giống như chúng sẽ được thiết kế trong kho dữ liệu. Bảng tóm tắt giúp sử dụng tất cả dữ liệu thứ nguyên trong lược đồ starflake.
Chi phí đánh dấu dữ liệu
Các biện pháp chi phí cho việc duyệt dữ liệu như sau:
- Chi phí phần cứng và phần mềm
- Truy cập mạng
- Ràng buộc về thời gian
Chi phí phần cứng và phần mềm
Mặc dù data mart được tạo trên cùng một phần cứng, chúng yêu cầu một số phần cứng và phần mềm bổ sung. Để xử lý các truy vấn của người dùng, nó yêu cầu thêm sức mạnh xử lý và ổ lưu trữ. Nếu dữ liệu chi tiết và kho dữ liệu tồn tại trong kho dữ liệu, thì chúng tôi sẽ phải trả thêm chi phí để lưu trữ và quản lý dữ liệu sao chép.
Note - Lưu trữ dữ liệu đắt hơn tổng hợp, do đó nó nên được sử dụng như một chiến lược bổ sung chứ không phải là một chiến lược thay thế.
Truy cập mạng
Kho dữ liệu có thể ở một vị trí khác với kho dữ liệu, vì vậy chúng tôi nên đảm bảo rằng mạng LAN hoặc WAN có khả năng xử lý các khối lượng dữ liệu đang được truyền trong data mart load process.
Ràng buộc về thời gian
Mức độ mà quá trình tải data mart sẽ ăn vào cửa sổ thời gian có sẵn phụ thuộc vào mức độ phức tạp của các phép biến đổi và khối lượng dữ liệu được vận chuyển. Việc xác định số lượng data mart có thể phụ thuộc vào -
- Dung lượng mạng.
- Khoảng thời gian có sẵn
- Khối lượng dữ liệu được chuyển
- Các cơ chế đang được sử dụng để chèn dữ liệu vào data mart