Kiểm tra ETL - Giới thiệu
Dữ liệu trong hệ thống Kho dữ liệu được tải bằng công cụ ETL (Trích xuất, Chuyển đổi, Tải). Như tên cho thấy, nó thực hiện ba hoạt động sau:
Trích xuất dữ liệu từ hệ thống giao dịch của bạn có thể là Oracle, Microsoft hoặc bất kỳ cơ sở dữ liệu quan hệ nào khác,
Chuyển đổi dữ liệu bằng cách thực hiện các thao tác làm sạch dữ liệu, sau đó
Tải dữ liệu vào Kho dữ liệu OLAP.
Bạn cũng có thể trích xuất dữ liệu từ các tệp phẳng như bảng tính và tệp CSV bằng công cụ ETL và tải nó vào kho dữ liệu OLAP để phân tích và báo cáo dữ liệu. Hãy để chúng tôi lấy một ví dụ để hiểu nó tốt hơn.
Thí dụ
Giả sử có một công ty sản xuất có nhiều phòng ban như bán hàng, nhân sự, quản lý vật tư, EWM, v.v. Tất cả các phòng ban này đều có cơ sở dữ liệu riêng biệt mà họ sử dụng để duy trì thông tin trong công việc của họ và mỗi cơ sở dữ liệu có một công nghệ, cảnh quan, bảng khác nhau tên, cột, v.v. Bây giờ, nếu công ty muốn phân tích dữ liệu lịch sử và tạo báo cáo, tất cả dữ liệu từ các nguồn dữ liệu này phải được trích xuất và tải vào Kho dữ liệu để lưu nó cho công việc phân tích.
Công cụ ETL trích xuất dữ liệu từ tất cả các nguồn dữ liệu không đồng nhất này, biến đổi dữ liệu (như áp dụng tính toán, nối các trường, khóa, xóa các trường dữ liệu không chính xác, v.v.) và tải nó vào Kho dữ liệu. Sau đó, bạn có thể sử dụng các công cụ Business Intelligence (BI) khác nhau để tạo báo cáo, trang tổng quan và hình ảnh trực quan có ý nghĩa bằng cách sử dụng dữ liệu này.
Sự khác biệt giữa Công cụ ETL và BI
Một công cụ ETL được sử dụng để trích xuất dữ liệu từ các nguồn dữ liệu khác nhau, chuyển đổi dữ liệu và tải nó vào hệ thống DW; tuy nhiên, công cụ BI được sử dụng để tạo các báo cáo tương tác và đặc biệt cho người dùng cuối, bảng điều khiển dành cho quản lý cấp cao, trực quan hóa dữ liệu cho các cuộc họp hội đồng quản trị hàng tháng, hàng quý và hàng năm.
Các công cụ ETL phổ biến nhất bao gồm - Dịch vụ dữ liệu SAP BO (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, v.v.
Một số công cụ BI phổ biến bao gồm - SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, v.v.
Quy trình ETL
Bây giờ chúng ta hãy thảo luận chi tiết hơn một chút về các bước chính liên quan đến quy trình ETL -
Trích xuất dữ liệu
Nó liên quan đến việc trích xuất dữ liệu từ các nguồn dữ liệu không đồng nhất khác nhau. Việc trích xuất dữ liệu từ hệ thống giao dịch thay đổi tùy theo yêu cầu và công cụ ETL đang được sử dụng. Nó thường được thực hiện bằng cách thực hiện các công việc theo lịch trình vào những giờ ngoài giờ làm việc như thực hiện công việc vào ban đêm hoặc cuối tuần.
Chuyển đổi dữ liệu
Nó liên quan đến việc chuyển đổi dữ liệu sang một định dạng phù hợp để có thể dễ dàng tải vào hệ thống DW. Việc chuyển đổi dữ liệu bao gồm việc áp dụng các phép tính, phép nối và xác định khóa chính và khóa ngoại trên dữ liệu. Ví dụ: nếu bạn muốn% tổng doanh thu không có trong cơ sở dữ liệu, bạn sẽ áp dụng công thức% trong chuyển đổi và tải dữ liệu. Tương tự, nếu bạn có tên và họ của người dùng trong các cột khác nhau, thì bạn có thể áp dụng thao tác nối trước khi tải dữ liệu. Một số dữ liệu không yêu cầu bất kỳ chuyển đổi nào; dữ liệu đó được gọi làdirect move hoặc là pass through data.
Chuyển đổi dữ liệu cũng liên quan đến việc sửa dữ liệu và làm sạch dữ liệu, loại bỏ dữ liệu không chính xác, hình thành dữ liệu không đầy đủ và sửa lỗi dữ liệu. Nó cũng bao gồm tính toàn vẹn của dữ liệu và định dạng dữ liệu không tương thích trước khi tải nó vào hệ thống DW.
Tải dữ liệu vào hệ thống DW
Nó liên quan đến việc tải dữ liệu vào hệ thống DW để báo cáo và phân tích thông tin. Hệ thống đích có thể là một tệp phẳng được phân định đơn giản hoặc một kho dữ liệu.
Chức năng công cụ ETL
Một kho dữ liệu dựa trên công cụ ETL điển hình sử dụng khu vực dàn dựng, tích hợp dữ liệu và các lớp truy cập để thực hiện các chức năng của nó. Nó thường là một kiến trúc 3 lớp.
Staging Layer - Lớp dàn hoặc cơ sở dữ liệu dàn được sử dụng để lưu trữ dữ liệu được trích xuất từ các hệ thống dữ liệu nguồn khác nhau.
Data Integration Layer - Lớp tích hợp chuyển đổi dữ liệu từ lớp dàn dựng và di chuyển dữ liệu đến cơ sở dữ liệu, nơi dữ liệu được sắp xếp thành các nhóm phân cấp, thường được gọi là dimensions, và vào facts và aggregate facts. Sự kết hợp của các bảng dữ kiện và kích thước trong hệ thống DW được gọi làschema.
Access Layer - Lớp truy cập được sử dụng bởi người dùng cuối để truy xuất dữ liệu cho báo cáo và thông tin phân tích.
Hình minh họa sau đây cho thấy ba lớp tương tác với nhau như thế nào.