ETL - Giới thiệu

ETL là viết tắt của Extract, Transform and Load. Một công cụ ETL trích xuất dữ liệu từ các hệ thống nguồn RDBMS khác nhau, chuyển đổi dữ liệu như áp dụng tính toán, ghép nối, v.v. và sau đó tải dữ liệu vào hệ thống Data Warehouse. Dữ liệu được tải trong hệ thống DW dưới dạng bảng thứ nguyên và dữ liệu.

Khai thác

  • Cần có một khu vực dàn trong khi tải ETL. Có nhiều lý do tại sao cần phải có khu vực dàn dựng.

  • Hệ thống nguồn chỉ có sẵn trong một khoảng thời gian cụ thể để trích xuất dữ liệu. Khoảng thời gian này nhỏ hơn tổng thời gian tải dữ liệu. Do đó, khu vực dàn dựng cho phép bạn trích xuất dữ liệu từ hệ thống nguồn và giữ nó trong khu vực dàn dựng trước khi khoảng thời gian kết thúc.

  • Khu vực dàn là bắt buộc khi bạn muốn lấy dữ liệu từ nhiều nguồn dữ liệu với nhau hoặc nếu bạn muốn kết hợp hai hoặc nhiều hệ thống với nhau. Ví dụ: bạn sẽ không thể thực hiện truy vấn SQL nối hai bảng từ hai cơ sở dữ liệu vật lý khác nhau.

  • Khoảng thời gian trích xuất dữ liệu cho các hệ thống khác nhau thay đổi theo múi giờ và giờ hoạt động.

  • Dữ liệu trích xuất từ ​​hệ thống nguồn có thể được sử dụng trong nhiều hệ thống kho dữ liệu, kho dữ liệu hoạt động, v.v.

  • ETL cho phép bạn thực hiện các phép biến đổi phức tạp và cần thêm diện tích để lưu trữ dữ liệu.

Biến đổi

Trong chuyển đổi dữ liệu, bạn áp dụng một tập hợp các chức năng trên dữ liệu được trích xuất để tải nó vào hệ thống đích. Dữ liệu, không yêu cầu bất kỳ chuyển đổi nào được gọi là di chuyển trực tiếp hoặc truyền qua dữ liệu.

Bạn có thể áp dụng các phép biến đổi khác nhau trên dữ liệu được trích xuất từ ​​hệ thống nguồn. Ví dụ, bạn có thể thực hiện các phép tính tùy chỉnh. Nếu bạn muốn tổng doanh thu bán hàng và doanh thu này không có trong cơ sở dữ liệu, bạn có thể áp dụngSUM công thức trong quá trình chuyển đổi và tải dữ liệu.

Ví dụ: nếu bạn có tên và họ trong bảng ở các cột khác nhau, bạn có thể sử dụng nối trước khi tải.

Tải

Trong giai đoạn Tải, dữ liệu được tải vào hệ thống đích và nó có thể là một tệp phẳng hoặc hệ thống Kho dữ liệu.