Kho dữ liệu - Quy trình hệ thống
Chúng tôi có một số hoạt động cố định sẽ được áp dụng trên cơ sở dữ liệu hoạt động và chúng tôi có các kỹ thuật được xác định rõ ràng như use normalized data, keep table small, v.v. Những kỹ thuật này phù hợp để đưa ra giải pháp. Nhưng trong trường hợp hệ thống hỗ trợ quyết định, chúng tôi không biết truy vấn và hoạt động nào cần được thực hiện trong tương lai. Do đó các kỹ thuật áp dụng trên cơ sở dữ liệu hoạt động không phù hợp với kho dữ liệu.
Trong chương này, chúng ta sẽ thảo luận về cách xây dựng các giải pháp kho dữ liệu trên các công nghệ hệ thống mở hàng đầu như Unix và cơ sở dữ liệu quan hệ.
Luồng quy trình trong kho dữ liệu
Có bốn quy trình chính đóng góp vào kho dữ liệu -
- Giải nén và tải dữ liệu.
- Làm sạch và chuyển đổi dữ liệu.
- Sao lưu và lưu trữ dữ liệu.
- Quản lý các truy vấn và hướng chúng đến các nguồn dữ liệu thích hợp.
Quá trình trích xuất và tải
Khai thác dữ liệu lấy dữ liệu từ các hệ thống nguồn. Tải dữ liệu lấy dữ liệu được trích xuất và tải vào kho dữ liệu.
Note - Trước khi nạp dữ liệu vào kho dữ liệu, thông tin trích xuất từ các nguồn bên ngoài phải được tái tạo lại.
Kiểm soát quá trình
Kiểm soát quá trình bao gồm việc xác định thời điểm bắt đầu trích xuất dữ liệu và kiểm tra tính nhất quán của dữ liệu. Quá trình kiểm soát đảm bảo rằng các công cụ, mô-đun logic và chương trình được thực thi theo đúng trình tự và đúng thời điểm.
Khi nào bắt đầu trích xuất
Dữ liệu cần phải ở trạng thái nhất quán khi nó được trích xuất, tức là, kho dữ liệu phải đại diện cho một phiên bản thông tin nhất quán, duy nhất cho người dùng.
Ví dụ, trong kho dữ liệu hồ sơ khách hàng trong lĩnh vực viễn thông, việc hợp nhất danh sách khách hàng lúc 8 giờ tối thứ Tư từ cơ sở dữ liệu khách hàng với sự kiện đăng ký khách hàng đến 8 giờ tối thứ Ba là không hợp lý. Điều này có nghĩa là chúng tôi đang tìm kiếm những khách hàng không có đăng ký liên quan.
Đang tải dữ liệu
Sau khi giải nén dữ liệu, nó được tải vào một kho lưu trữ dữ liệu tạm thời, nơi nó được làm sạch và nhất quán.
Note - Kiểm tra tính nhất quán chỉ được thực hiện khi tất cả các nguồn dữ liệu đã được tải vào kho dữ liệu tạm thời.
Quy trình làm sạch và chuyển đổi
Khi dữ liệu được trích xuất và tải vào kho dữ liệu tạm thời, đã đến lúc thực hiện Làm sạch và Chuyển đổi. Đây là danh sách các bước liên quan đến Làm sạch và Chuyển đổi -
- Làm sạch và chuyển đổi dữ liệu đã tải thành cấu trúc
- Phân vùng dữ liệu
- Aggregation
Làm sạch và chuyển đổi dữ liệu đã tải thành cấu trúc
Làm sạch và chuyển đổi dữ liệu đã tải giúp tăng tốc các truy vấn. Nó có thể được thực hiện bằng cách làm cho dữ liệu nhất quán -
- trong chính nó.
- với dữ liệu khác trong cùng một nguồn dữ liệu.
- với dữ liệu trong các hệ thống nguồn khác.
- với dữ liệu hiện có trong kho.
Chuyển đổi bao gồm việc chuyển đổi dữ liệu nguồn thành một cấu trúc. Cấu trúc dữ liệu làm tăng hiệu suất truy vấn và giảm chi phí hoạt động. Dữ liệu chứa trong kho dữ liệu phải được chuyển đổi để hỗ trợ các yêu cầu về hiệu suất và kiểm soát chi phí hoạt động liên tục.
Phân vùng dữ liệu
Nó sẽ tối ưu hóa hiệu suất phần cứng và đơn giản hóa việc quản lý kho dữ liệu. Ở đây chúng tôi phân chia mỗi bảng dữ kiện thành nhiều phân vùng riêng biệt.
Tổng hợp
Tổng hợp là cần thiết để tăng tốc các truy vấn phổ biến. Tính tổng hợp dựa trên thực tế là hầu hết các truy vấn phổ biến sẽ phân tích một tập hợp con hoặc tập hợp dữ liệu chi tiết.
Sao lưu và lưu trữ dữ liệu
Để khôi phục dữ liệu trong trường hợp mất dữ liệu, lỗi phần mềm hoặc phần cứng, cần phải sao lưu thường xuyên. Lưu trữ liên quan đến việc xóa dữ liệu cũ khỏi hệ thống ở định dạng cho phép khôi phục nhanh chóng bất cứ khi nào cần thiết.
Ví dụ: trong kho dữ liệu phân tích doanh số bán lẻ, có thể phải lưu dữ liệu trong 3 năm với dữ liệu 6 tháng gần nhất được lưu trực tuyến. Trong kịch bản như vậy, thường có một yêu cầu để có thể thực hiện so sánh hàng tháng cho năm nay và năm ngoái. Trong trường hợp này, chúng tôi yêu cầu khôi phục một số dữ liệu từ kho lưu trữ.
Quy trình quản lý truy vấn
Quá trình này thực hiện các chức năng sau:
quản lý các truy vấn.
giúp tăng tốc thời gian thực hiện dấu hoa thị.
hướng các truy vấn đến nguồn dữ liệu hiệu quả nhất của chúng.
đảm bảo rằng tất cả các nguồn của hệ thống được sử dụng một cách hiệu quả nhất.
giám sát hồ sơ truy vấn thực tế.
Thông tin được tạo ra trong quy trình này được sử dụng bởi quy trình quản lý kho để xác định những tập hợp nào cần tạo. Quá trình này thường không hoạt động trong quá trình tải thông tin thường xuyên vào kho dữ liệu.