Kiểm tra ETL - Hướng dẫn nhanh

Dữ liệu trong hệ thống Kho dữ liệu được tải bằng công cụ ETL (Trích xuất, Chuyển đổi, Tải). Như tên cho thấy, nó thực hiện ba hoạt động sau:

  • Trích xuất dữ liệu từ hệ thống giao dịch của bạn có thể là Oracle, Microsoft hoặc bất kỳ cơ sở dữ liệu quan hệ nào khác,

  • Chuyển đổi dữ liệu bằng cách thực hiện các thao tác làm sạch dữ liệu, sau đó

  • Tải dữ liệu vào Kho dữ liệu OLAP.

Bạn cũng có thể trích xuất dữ liệu từ các tệp phẳng như bảng tính và tệp CSV bằng công cụ ETL và tải nó vào kho dữ liệu OLAP để phân tích và báo cáo dữ liệu. Hãy để chúng tôi lấy một ví dụ để hiểu nó tốt hơn.

Thí dụ

Giả sử có một công ty sản xuất có nhiều phòng ban như bán hàng, nhân sự, quản lý vật tư, EWM, v.v. Tất cả các phòng ban này đều có cơ sở dữ liệu riêng biệt mà họ sử dụng để duy trì thông tin trong công việc của họ và mỗi cơ sở dữ liệu có một công nghệ, cảnh quan, bảng khác nhau tên, cột, v.v. Bây giờ, nếu công ty muốn phân tích dữ liệu lịch sử và tạo báo cáo, tất cả dữ liệu từ các nguồn dữ liệu này phải được trích xuất và tải vào Kho dữ liệu để lưu nó cho công việc phân tích.

Công cụ ETL trích xuất dữ liệu từ tất cả các nguồn dữ liệu không đồng nhất này, biến đổi dữ liệu (như áp dụng tính toán, nối các trường, khóa, xóa các trường dữ liệu không chính xác, v.v.) và tải nó vào Kho dữ liệu. Sau đó, bạn có thể sử dụng các công cụ Business Intelligence (BI) khác nhau để tạo báo cáo, trang tổng quan và hình ảnh trực quan có ý nghĩa bằng cách sử dụng dữ liệu này.

Sự khác biệt giữa Công cụ ETL và BI

Một công cụ ETL được sử dụng để trích xuất dữ liệu từ các nguồn dữ liệu khác nhau, chuyển đổi dữ liệu và tải nó vào hệ thống DW; tuy nhiên, công cụ BI được sử dụng để tạo các báo cáo tương tác và đặc biệt cho người dùng cuối, bảng điều khiển dành cho quản lý cấp cao, trực quan hóa dữ liệu cho các cuộc họp hội đồng quản trị hàng tháng, hàng quý và hàng năm.

Các công cụ ETL phổ biến nhất bao gồm - Dịch vụ dữ liệu SAP BO (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, v.v.

Một số công cụ BI phổ biến bao gồm - SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, v.v.

Quy trình ETL

Bây giờ chúng ta hãy thảo luận chi tiết hơn một chút về các bước chính liên quan đến quy trình ETL -

Trích xuất dữ liệu

Nó liên quan đến việc trích xuất dữ liệu từ các nguồn dữ liệu không đồng nhất khác nhau. Việc trích xuất dữ liệu từ hệ thống giao dịch thay đổi tùy theo yêu cầu và công cụ ETL đang được sử dụng. Nó thường được thực hiện bằng cách thực hiện các công việc theo lịch trình vào những giờ ngoài giờ làm việc như thực hiện công việc vào ban đêm hoặc cuối tuần.

Chuyển đổi dữ liệu

Nó liên quan đến việc chuyển đổi dữ liệu sang một định dạng phù hợp để có thể dễ dàng tải vào hệ thống DW. Việc chuyển đổi dữ liệu bao gồm việc áp dụng các phép tính, phép nối và xác định khóa chính và khóa ngoại trên dữ liệu. Ví dụ: nếu bạn muốn% tổng doanh thu không có trong cơ sở dữ liệu, bạn sẽ áp dụng công thức% trong chuyển đổi và tải dữ liệu. Tương tự, nếu bạn có tên và họ của người dùng trong các cột khác nhau, thì bạn có thể áp dụng thao tác nối trước khi tải dữ liệu. Một số dữ liệu không yêu cầu bất kỳ chuyển đổi nào; dữ liệu đó được gọi làdirect move hoặc là pass through data.

Chuyển đổi dữ liệu cũng liên quan đến việc sửa dữ liệu và làm sạch dữ liệu, loại bỏ dữ liệu không chính xác, hình thành dữ liệu không đầy đủ và sửa lỗi dữ liệu. Nó cũng bao gồm tính toàn vẹn của dữ liệu và định dạng dữ liệu không tương thích trước khi tải nó vào hệ thống DW.

Tải dữ liệu vào hệ thống DW

Nó liên quan đến việc tải dữ liệu vào hệ thống DW để báo cáo và phân tích thông tin. Hệ thống đích có thể là một tệp phẳng được phân định đơn giản hoặc một kho dữ liệu.

Chức năng công cụ ETL

Một kho dữ liệu dựa trên công cụ ETL điển hình sử dụng khu vực dàn dựng, tích hợp dữ liệu và các lớp truy cập để thực hiện các chức năng của nó. Nó thường là một kiến ​​trúc 3 lớp.

  • Staging Layer - Lớp dàn hoặc cơ sở dữ liệu dàn được sử dụng để lưu trữ dữ liệu được trích xuất từ ​​các hệ thống dữ liệu nguồn khác nhau.

  • Data Integration Layer - Lớp tích hợp chuyển đổi dữ liệu từ lớp dàn dựng và di chuyển dữ liệu đến cơ sở dữ liệu, nơi dữ liệu được sắp xếp thành các nhóm phân cấp, thường được gọi là dimensions, và vào factsaggregate facts. Sự kết hợp của các bảng dữ kiện và kích thước trong hệ thống DW được gọi làschema.

  • Access Layer - Lớp truy cập được sử dụng bởi người dùng cuối để truy xuất dữ liệu cho báo cáo và thông tin phân tích.

Hình minh họa sau đây cho thấy ba lớp tương tác với nhau như thế nào.

Kiểm tra ETL được thực hiện trước khi dữ liệu được chuyển vào hệ thống kho dữ liệu sản xuất. Nó đôi khi còn được gọi làtable balancing hoặc là production reconciliation. Nó khác với kiểm thử cơ sở dữ liệu về phạm vi và các bước cần thực hiện để hoàn thành việc này.

Mục tiêu chính của kiểm tra ETL là xác định và giảm thiểu các lỗi dữ liệu và các lỗi chung xảy ra trước khi xử lý dữ liệu để báo cáo phân tích.

Kiểm tra ETL - Các công việc cần thực hiện

Dưới đây là danh sách các nhiệm vụ phổ biến liên quan đến Kiểm tra ETL -

  • Hiểu dữ liệu được sử dụng để báo cáo
  • Xem lại Mô hình Dữ liệu
  • Nguồn để ánh xạ mục tiêu
  • Kiểm tra dữ liệu trên dữ liệu nguồn
  • Gói và xác thực lược đồ
  • Xác minh dữ liệu trong hệ thống đích
  • Xác minh các phép tính chuyển đổi dữ liệu và các quy tắc tổng hợp
  • So sánh dữ liệu mẫu giữa nguồn và hệ thống đích
  • Kiểm tra chất lượng và toàn vẹn dữ liệu trong hệ thống đích
  • Kiểm tra hiệu suất trên dữ liệu

Cả thử nghiệm ETL và thử nghiệm cơ sở dữ liệu đều liên quan đến việc xác thực dữ liệu, nhưng chúng không giống nhau. Kiểm tra ETL thường được thực hiện trên dữ liệu trong hệ thống kho dữ liệu, trong khi kiểm tra cơ sở dữ liệu thường được thực hiện trên các hệ thống giao dịch nơi dữ liệu đến từ các ứng dụng khác nhau vào cơ sở dữ liệu giao dịch.

Ở đây, chúng tôi đã nêu bật những điểm khác biệt chính giữa kiểm thử ETL và kiểm thử Cơ sở dữ liệu.

Thử nghiệm ETL

Kiểm tra ETL bao gồm các hoạt động sau:

  • Xác nhận sự di chuyển dữ liệu từ nguồn đến hệ thống đích.

  • Xác minh số lượng dữ liệu trong nguồn và hệ thống đích.

  • Xác minh trích xuất, chuyển đổi dữ liệu theo yêu cầu và mong đợi.

  • Xác minh xem quan hệ bảng - nối và khóa - được giữ nguyên trong quá trình chuyển đổi.

Các công cụ kiểm tra ETL phổ biến bao gồm QuerySurge, Informatica, Vân vân.

Kiểm tra cơ sở dữ liệu

Kiểm tra cơ sở dữ liệu nhấn mạnh nhiều hơn đến độ chính xác của dữ liệu, tính đúng đắn của dữ liệu và các giá trị hợp lệ. Nó bao gồm các hoạt động sau:

  • Xác minh xem khóa chính và khóa ngoại có được duy trì hay không.

  • Xác minh xem các cột trong bảng có giá trị dữ liệu hợp lệ hay không.

  • Xác minh tính chính xác của dữ liệu trong các cột. Example - Cột số tháng không được có giá trị lớn hơn 12.

  • Xác minh dữ liệu bị thiếu trong các cột. Kiểm tra xem có cột rỗng thực sự phải có giá trị hợp lệ hay không.

Các công cụ kiểm tra cơ sở dữ liệu phổ biến bao gồm Selenium, QTP, Vân vân.

Bảng sau ghi lại các tính năng chính của kiểm tra Cơ sở dữ liệu và ETL và so sánh giữa chúng:

Chức năng Kiểm tra cơ sở dữ liệu Thử nghiệm ETL
Mục tiêu chính Xác thực và tích hợp dữ liệu Trích xuất, chuyển đổi và tải dữ liệu cho báo cáo BI
Hệ thống áp dụng Hệ thống giao dịch nơi diễn ra luồng kinh doanh Hệ thống chứa dữ liệu lịch sử và không nằm trong môi trường luồng kinh doanh
Các công cụ phổ biến QTP, Selenium, v.v. QuerySurge, Informatica, v.v.
Nhu cầu kinh doanh Nó được sử dụng để tích hợp dữ liệu từ nhiều ứng dụng, Tác động nghiêm trọng. Nó được sử dụng cho Báo cáo phân tích, thông tin và dự báo.
Mô hình hóa Phương pháp ER Đa chiều
Loại cơ sở dữ liệu Nó thường được sử dụng trong hệ thống OLTP Nó được áp dụng cho hệ thống OLAP
Loại dữ liệu Dữ liệu chuẩn hóa với nhiều liên kết hơn Dữ liệu không chuẩn hóa với ít liên kết hơn, nhiều chỉ mục hơn và tổng hợp.

Phân loại kiểm thử ETL được thực hiện dựa trên các mục tiêu của kiểm tra và báo cáo. Các hạng mục kiểm tra khác nhau tùy theo tiêu chuẩn của tổ chức và nó cũng phụ thuộc vào yêu cầu của khách hàng. Nói chung, thử nghiệm ETL được phân loại dựa trên các điểm sau:

  • Source to Target Count Testing - Nó liên quan đến việc khớp số lượng bản ghi trong hệ thống nguồn và hệ thống đích.

  • Source to Target Data Testing- Nó liên quan đến việc xác nhận dữ liệu giữa nguồn và hệ thống đích. Nó cũng liên quan đến việc tích hợp dữ liệu và kiểm tra giá trị ngưỡng và kiểm tra dữ liệu trùng lặp trong hệ thống đích.

  • Data Mapping or Transformation Testing- Nó xác nhận ánh xạ của các đối tượng trong hệ thống nguồn và đích. Nó cũng liên quan đến việc kiểm tra chức năng của dữ liệu trong hệ thống đích.

  • End-User Testing- Nó liên quan đến việc tạo báo cáo cho người dùng cuối để xác minh xem dữ liệu trong báo cáo có đúng như mong đợi hay không. Nó liên quan đến việc tìm ra độ lệch trong báo cáo và kiểm tra chéo dữ liệu trong hệ thống đích để xác nhận báo cáo.

  • Retesting - Nó liên quan đến việc sửa các lỗi và khiếm khuyết trong dữ liệu trong hệ thống đích và chạy lại các báo cáo để xác thực dữ liệu.

  • System Integration Testing- Nó liên quan đến việc thử nghiệm tất cả các hệ thống riêng lẻ và sau đó kết hợp các kết quả để tìm xem có bất kỳ sai lệch nào không. Có ba cách tiếp cận có thể được sử dụng để thực hiện điều này: từ trên xuống, từ dưới lên và kết hợp.

Dựa trên cấu trúc của hệ thống Kho dữ liệu, thử nghiệm ETL (bất kể công cụ được sử dụng) có thể được chia thành các loại sau:

Kiểm tra hệ thống DW mới

Trong loại thử nghiệm này, có một hệ thống DW mới được xây dựng và xác minh. Dữ liệu đầu vào được lấy từ khách hàng / người dùng cuối và cũng từ các nguồn dữ liệu khác nhau và một kho dữ liệu mới được tạo ra. Sau đó, dữ liệu được xác minh trong hệ thống mới với sự trợ giúp của các công cụ ETL.

Kiểm tra di chuyển

Trong thử nghiệm di chuyển, khách hàng có Kho dữ liệu và ETL hiện có, nhưng họ tìm kiếm một công cụ ETL mới để cải thiện hiệu quả. Nó liên quan đến việc di chuyển dữ liệu từ hệ thống hiện có bằng cách sử dụng công cụ ETL mới.

Thay đổi thử nghiệm

Trong thử nghiệm thay đổi, dữ liệu mới được thêm từ các nguồn dữ liệu khác nhau vào hệ thống hiện có. Khách hàng cũng có thể thay đổi các quy tắc hiện có cho ETL hoặc một quy tắc mới cũng có thể được thêm vào.

Báo cáo kiểm tra

Kiểm tra báo cáo liên quan đến việc tạo báo cáo để xác thực dữ liệu. Báo cáo là kết quả cuối cùng của bất kỳ hệ thống DW nào. Báo cáo được kiểm tra dựa trên bố cục, dữ liệu trong báo cáo và các giá trị được tính toán.

Thử nghiệm ETL khác với thử nghiệm cơ sở dữ liệu hoặc bất kỳ thử nghiệm thông thường nào khác. Một người có thể phải đối mặt với các loại thách thức khác nhau trong khi thực hiện thử nghiệm ETL. Ở đây chúng tôi liệt kê một số thách thức phổ biến -

  • Mất dữ liệu trong quá trình ETL.

  • Dữ liệu không chính xác, không đầy đủ hoặc trùng lặp.

  • Hệ thống DW chứa dữ liệu lịch sử, do đó, khối lượng dữ liệu quá lớn và cực kỳ phức tạp để thực hiện kiểm tra ETL trong hệ thống đích.

  • Người kiểm tra ETL thường không được cung cấp quyền truy cập để xem lịch trình công việc trong công cụ ETL. Họ hầu như không có quyền truy cập vào các công cụ Báo cáo BI để xem bố cục cuối cùng của báo cáo và dữ liệu bên trong báo cáo.

  • Khó tạo và xây dựng các trường hợp thử nghiệm vì khối lượng dữ liệu quá cao và phức tạp.

  • Người kiểm tra ETL thường không có ý tưởng về các yêu cầu báo cáo của người dùng cuối và luồng thông tin kinh doanh.

  • Kiểm tra ETL liên quan đến các khái niệm SQL phức tạp khác nhau để xác thực dữ liệu trong hệ thống đích.

  • Đôi khi người kiểm tra không được cung cấp thông tin ánh xạ từ nguồn đến đích.

  • Môi trường thử nghiệm không ổn định làm chậm sự phát triển và thử nghiệm của một quy trình.

Người kiểm tra ETL chịu trách nhiệm chính trong việc xác nhận các nguồn dữ liệu, trích xuất dữ liệu, áp dụng logic chuyển đổi và tải dữ liệu trong các bảng đích.

Các trách nhiệm chính của người kiểm tra ETL được liệt kê dưới đây.

Xác minh các bảng trong hệ thống nguồn

Nó bao gồm các hoạt động sau:

  • Đếm séc
  • Đối chiếu các bản ghi với dữ liệu nguồn
  • Kiểm tra kiểu dữ liệu
  • Đảm bảo không có dữ liệu spam được tải
  • Xóa dữ liệu trùng lặp
  • Kiểm tra tất cả các chìa khóa ở đúng vị trí

Áp dụng logic chuyển đổi

Logic chuyển đổi được áp dụng trước khi tải dữ liệu. Nó bao gồm các hoạt động sau:

  • Ví dụ: kiểm tra xác thực ngưỡng dữ liệu, giá trị độ tuổi không được lớn hơn 100.

  • Kiểm tra số lượng bản ghi, trước và sau khi áp dụng logic chuyển đổi.

  • Xác nhận luồng dữ liệu từ khu vực dàn dựng đến các bảng trung gian.

  • Kiểm tra chìa khóa thay thế.

Đang tải dữ liệu

Dữ liệu được tải từ khu vực dàn dựng đến hệ thống đích. Nó bao gồm các hoạt động sau:

  • Ghi kiểm tra đếm từ bảng trung gian đến hệ thống đích.

  • Đảm bảo dữ liệu trường khóa không bị thiếu hoặc Null.

  • Kiểm tra xem các giá trị tổng hợp và các số đo được tính toán có được tải trong bảng dữ kiện hay không.

  • Kiểm tra các chế độ xem mô hình dựa trên các bảng mục tiêu.

  • Kiểm tra xem CDC đã được áp dụng trên bảng tải tăng dần chưa.

  • Kiểm tra dữ liệu trong bảng thứ nguyên và kiểm tra bảng lịch sử.

  • Kiểm tra các báo cáo BI dựa trên bảng thông số và dữ kiện đã tải và theo kết quả mong đợi.

Kiểm tra các công cụ ETL

Người kiểm tra ETL cũng được yêu cầu kiểm tra các công cụ và các trường hợp kiểm thử. Nó bao gồm các hoạt động sau:

  • Kiểm tra công cụ ETL và các chức năng của nó
  • Kiểm tra hệ thống Kho dữ liệu ETL
  • Tạo, thiết kế và thực hiện các kế hoạch thử nghiệm và các trường hợp thử nghiệm.
  • Kiểm tra việc truyền dữ liệu tệp phẳng.

Điều quan trọng là bạn phải xác định kỹ thuật ETL Testing chính xác trước khi bắt đầu quá trình thử nghiệm. Bạn nên chấp nhận tất cả các bên liên quan và đảm bảo rằng một kỹ thuật đúng được chọn để thực hiện kiểm tra ETL. Kỹ thuật này nên được nhóm thử nghiệm biết rõ và họ nên biết về các bước liên quan đến quy trình thử nghiệm.

Có nhiều loại kỹ thuật kiểm tra khác nhau có thể được sử dụng. Trong chương này, chúng ta sẽ thảo luận ngắn gọn về các kỹ thuật kiểm thử.

Kiểm tra xác nhận sản xuất

Để thực hiện Báo cáo và Phân tích Phân tích, dữ liệu trong quá trình sản xuất của bạn phải chính xác. Thử nghiệm này được thực hiện trên dữ liệu được chuyển đến hệ thống sản xuất. Nó liên quan đến việc xác nhận dữ liệu trong hệ thống sản xuất và so sánh nó với dữ liệu nguồn.

Kiểm tra số lượng từ nguồn đến mục tiêu

Loại thử nghiệm này được thực hiện khi người thử nghiệm có ít thời gian hơn để thực hiện thao tác thử nghiệm. Nó liên quan đến việc kiểm tra số lượng dữ liệu trong hệ thống nguồn và hệ thống đích. Nó không liên quan đến việc kiểm tra các giá trị của dữ liệu trong hệ thống đích. Nó cũng không liên quan đến việc dữ liệu theo thứ tự tăng dần hoặc giảm dần sau khi ánh xạ dữ liệu.

Kiểm tra dữ liệu từ nguồn đến mục tiêu

Trong loại thử nghiệm này, người thử nghiệm xác nhận các giá trị dữ liệu từ nguồn đến hệ thống đích. Nó kiểm tra các giá trị dữ liệu trong hệ thống nguồn và các giá trị tương ứng trong hệ thống đích sau khi chuyển đổi. Loại thử nghiệm này tốn nhiều thời gian và thường được thực hiện trong các dự án tài chính và ngân hàng.

Tích hợp dữ liệu / Kiểm tra xác thực giá trị ngưỡng

Trong loại thử nghiệm này, người thử nghiệm xác nhận phạm vi dữ liệu. Tất cả các giá trị ngưỡng trong hệ thống đích đều được kiểm tra xem chúng có đúng như kết quả mong đợi hay không. Nó cũng liên quan đến việc tích hợp dữ liệu trong hệ thống đích từ nhiều hệ thống nguồn sau khi chuyển đổi và tải.

Example - Thuộc tính tuổi không được có giá trị lớn hơn 100. Trong cột ngày DD / MM / YY, trường tháng không được có giá trị lớn hơn 12.

Kiểm tra di chuyển ứng dụng

Kiểm tra di chuyển ứng dụng thường được thực hiện tự động khi bạn chuyển từ ứng dụng cũ sang hệ thống ứng dụng mới. Thử nghiệm này tiết kiệm rất nhiều thời gian. Nó kiểm tra xem dữ liệu được trích xuất từ ​​một ứng dụng cũ có giống với dữ liệu trong hệ thống ứng dụng mới hay không.

Kiểm tra dữ liệu và kiểm tra ràng buộc

Nó bao gồm việc thực hiện các kiểm tra khác nhau như kiểm tra kiểu dữ liệu, kiểm tra độ dài dữ liệu và kiểm tra chỉ mục. Ở đây Kỹ sư kiểm tra thực hiện các tình huống sau - Khóa chính, Khóa ngoài, KHÔNG ĐỦ, NULL và DUY NHẤT.

Kiểm tra kiểm tra dữ liệu trùng lặp

Thử nghiệm này liên quan đến việc kiểm tra dữ liệu trùng lặp trong hệ thống đích. Khi có một lượng lớn dữ liệu trong hệ thống đích, có thể có dữ liệu trùng lặp trong hệ thống sản xuất dẫn đến dữ liệu không chính xác trong Báo cáo phân tích.

Các giá trị trùng lặp có thể được kiểm tra bằng câu lệnh SQL như:

Select Cust_Id, Cust_NAME, Quantity, COUNT (*) 
FROM Customer
GROUP BY Cust_Id, Cust_NAME, Quantity HAVING COUNT (*) >1;

Dữ liệu trùng lặp xuất hiện trong hệ thống đích do những lý do sau:

  • Nếu không có khóa chính nào được xác định, thì các giá trị trùng lặp có thể xuất hiện.
  • Do lập bản đồ không chính xác hoặc các vấn đề môi trường.
  • Lỗi thủ công trong khi chuyển dữ liệu từ nguồn đến hệ thống đích.

Kiểm tra chuyển đổi dữ liệu

Kiểm tra chuyển đổi dữ liệu không được thực hiện bằng cách chạy một câu lệnh SQL. Việc này tốn nhiều thời gian và liên quan đến việc chạy nhiều truy vấn SQL cho mỗi hàng để xác minh các quy tắc chuyển đổi. Người kiểm tra cần chạy các truy vấn SQL cho mỗi hàng và sau đó so sánh kết quả đầu ra với dữ liệu đích.

Kiểm tra chất lượng dữ liệu

Kiểm tra chất lượng dữ liệu liên quan đến việc thực hiện kiểm tra số, kiểm tra ngày tháng, kiểm tra rỗng, kiểm tra độ chính xác, v.v. Người kiểm tra thực hiện Syntax Test để báo cáo các ký tự không hợp lệ, thứ tự viết hoa / viết thường không chính xác, v.v. và Reference Tests để kiểm tra xem dữ liệu có theo mô hình dữ liệu hay không.

Thử nghiệm gia tăng

Thử nghiệm gia tăng được thực hiện để xác minh xem câu lệnh Chèn và Cập nhật có được thực thi theo kết quả mong đợi hay không. Thử nghiệm này được thực hiện từng bước với dữ liệu cũ và mới.

Kiểm tra hồi quy

Khi chúng tôi thực hiện các thay đổi đối với quy tắc tổng hợp và chuyển đổi dữ liệu để thêm chức năng mới, điều này cũng giúp người kiểm tra tìm ra lỗi mới, nó được gọi là Kiểm tra hồi quy. Các lỗi trong dữ liệu có trong thử nghiệm hồi quy được gọi là Hồi quy.

Kiểm tra lại

Khi bạn chạy các bài kiểm tra sau khi sửa mã, nó được gọi là kiểm tra lại.

Kiểm tra tích hợp hệ thống

Kiểm thử tích hợp hệ thống bao gồm việc kiểm tra các thành phần của một hệ thống riêng lẻ và sau đó tích hợp các mô-đun. Có ba cách tích hợp hệ thống có thể được thực hiện: từ trên xuống, từ dưới lên và kết hợp.

Kiểm tra điều hướng

Kiểm tra điều hướng còn được gọi là kiểm tra giao diện người dùng của hệ thống. Nó liên quan đến việc kiểm tra quan điểm của người dùng cuối bằng cách kiểm tra tất cả các khía cạnh của báo cáo giao diện người dùng - bao gồm dữ liệu trong các trường khác nhau, tính toán và tổng hợp, v.v.

Thử nghiệm ETL bao gồm tất cả các bước liên quan đến vòng đời ETL. Nó bắt đầu với việc hiểu các yêu cầu kinh doanh cho đến khi tạo ra một báo cáo tóm tắt.

Các bước phổ biến trong vòng đời Thử nghiệm ETL được liệt kê bên dưới:

  • Hiểu yêu cầu kinh doanh.

  • Xác nhận yêu cầu kinh doanh.

  • Ước tính thử nghiệm được sử dụng để cung cấp thời gian ước tính để chạy các trường hợp thử nghiệm và hoàn thành báo cáo tóm tắt.

  • Lập kế hoạch Kiểm tra liên quan đến việc tìm ra kỹ thuật Kiểm tra dựa trên các yếu tố đầu vào theo yêu cầu kinh doanh.

  • Tạo kịch bản thử nghiệm và trường hợp thử nghiệm.

  • Khi các trường hợp thử nghiệm đã sẵn sàng và được chấp thuận, bước tiếp theo là thực hiện kiểm tra trước khi thực thi.

  • Thực thi tất cả các test-case.

  • Bước cuối cùng là tạo một báo cáo tóm tắt hoàn chỉnh và gửi quy trình kết thúc.

Kịch bản kiểm tra ETL được sử dụng để xác thực Quy trình kiểm tra ETL. Bảng sau giải thích một số kịch bản và trường hợp thử nghiệm phổ biến nhất được người thử nghiệm ETL sử dụng.

Các tình huống thử nghiệm Trường hợp thử nghiệm

Xác thực cấu trúc

Nó liên quan đến việc xác nhận nguồn và cấu trúc bảng đích theo tài liệu ánh xạ.

Kiểu dữ liệu phải được xác nhận trong hệ thống nguồn và hệ thống đích.

Độ dài của các kiểu dữ liệu trong nguồn và hệ thống đích phải bằng nhau.

Các loại trường dữ liệu và định dạng của chúng phải giống nhau trong nguồn và hệ thống đích.

Xác thực tên cột trong hệ thống đích.

Xác thực tài liệu ánh xạ

Nó liên quan đến việc xác thực tài liệu bản đồ để đảm bảo tất cả thông tin đã được cung cấp. Tài liệu ánh xạ phải có nhật ký thay đổi, duy trì kiểu dữ liệu, độ dài, quy tắc chuyển đổi, v.v.

Xác thực các ràng buộc

Nó liên quan đến việc xác nhận các ràng buộc và đảm bảo rằng chúng được áp dụng trên các bảng dự kiến.

Kiểm tra tính nhất quán của dữ liệu

Nó liên quan đến việc kiểm tra việc sử dụng sai các ràng buộc toàn vẹn như Khóa ngoại.

Độ dài và kiểu dữ liệu của một thuộc tính có thể khác nhau trong các bảng khác nhau, mặc dù định nghĩa của chúng vẫn giống nhau ở lớp ngữ nghĩa.

Xác thực tính hoàn chỉnh của dữ liệu

Nó liên quan đến việc kiểm tra xem tất cả dữ liệu có được tải vào hệ thống đích từ hệ thống nguồn hay không.

Đếm số lượng bản ghi trong hệ thống nguồn và đích.

Phân tích giá trị ranh giới.

Xác thực các giá trị duy nhất của khóa chính.

Xác thực tính đúng đắn của dữ liệu

Nó liên quan đến việc xác nhận các giá trị của dữ liệu trong hệ thống đích.

Dữ liệu sai chính tả hoặc không chính xác được tìm thấy trong bảng.

Dữ liệu Null, Not Unique được lưu trữ khi bạn tắt ràng buộc toàn vẹn tại thời điểm nhập.

Xác thực chuyển đổi dữ liệu

Nó liên quan đến việc tạo một bảng tính các kịch bản cho các giá trị đầu vào và kết quả mong đợi và sau đó xác thực với người dùng cuối.

Xác thực mối quan hệ cha-con trong dữ liệu bằng cách tạo các kịch bản.

Sử dụng cấu hình dữ liệu để so sánh phạm vi giá trị trong mỗi trường.

Xác thực nếu các kiểu dữ liệu trong kho giống như được đề cập trong mô hình dữ liệu.

Xác thực chất lượng dữ liệu

Nó liên quan đến việc thực hiện kiểm tra số, kiểm tra ngày tháng, kiểm tra độ chính xác, kiểm tra dữ liệu, kiểm tra giá trị rỗng, v.v.

Example - Định dạng ngày tháng phải giống nhau cho tất cả các giá trị.

Xác thực Null

Nó liên quan đến việc kiểm tra các giá trị Null nơi Not Null được đề cập cho trường đó.

Xác thực trùng lặp

Nó liên quan đến việc xác nhận các giá trị trùng lặp trong hệ thống đích khi dữ liệu đến từ nhiều cột từ hệ thống nguồn.

Xác thực khóa chính và các cột khác nếu có bất kỳ giá trị trùng lặp nào theo yêu cầu nghiệp vụ.

Kiểm tra xác thực ngày

Trường ngày xác thực cho các hành động khác nhau được thực hiện trong quy trình ETL.

Các trường hợp thử nghiệm phổ biến để thực hiện xác thực Ngày -

  • From_Date không được lớn hơn To_Date

  • Định dạng giá trị ngày tháng phải phù hợp.

  • Giá trị ngày tháng không được có bất kỳ giá trị rác hoặc giá trị rỗng nào

Truy vấn trừ xác thực dữ liệu đầy đủ

Nó liên quan đến việc xác thực tập dữ liệu đầy đủ trong bảng nguồn và bảng đích bằng cách sử dụng truy vấn trừ.

  • Bạn cần thực hiện cả hai source minus targettarget minus source.

  • Nếu truy vấn trừ trả về một giá trị, thì giá trị đó sẽ được coi là các hàng không khớp.

  • Bạn cần đối sánh các hàng trong nguồn và mục tiêu bằng cách sử dụng Intersect tuyên bố.

  • Số lượng do Intersect trả về phải khớp với số lượng riêng lẻ của bảng nguồn và bảng đích.

  • Nếu truy vấn trừ trả về không có hàng nào và số lượng giao nhau nhỏ hơn số lượng nguồn hoặc số bảng mục tiêu, thì bảng sẽ chứa các hàng trùng lặp.

Các tình huống thử nghiệm khác

Các tình huống Kiểm tra khác có thể là để xác minh rằng quá trình trích xuất không trích xuất dữ liệu trùng lặp từ hệ thống nguồn.

Nhóm kiểm tra sẽ duy trì một danh sách các câu lệnh SQL được chạy để xác nhận rằng không có dữ liệu trùng lặp nào được trích xuất từ ​​hệ thống nguồn.

Làm sạch dữ liệu

Dữ liệu không mong muốn nên được loại bỏ trước khi tải dữ liệu vào khu vực tổ chức.

Điều chỉnh hiệu suất ETL được sử dụng để đảm bảo liệu một hệ thống ETL có thể xử lý tải dự kiến ​​của nhiều người dùng và giao dịch hay không. Điều chỉnh hiệu suất thường liên quan đến khối lượng công việc phía máy chủ trên hệ thống ETL. Nó được sử dụng để kiểm tra phản ứng của máy chủ trong môi trường đa người dùng và tìm các nút thắt cổ chai. Chúng có thể được tìm thấy trong hệ thống nguồn và đích, ánh xạ hệ thống, cấu hình như thuộc tính quản lý phiên, v.v.

Làm thế nào để Thực hiện Điều chỉnh Hiệu suất Thử nghiệm ETL?

Làm theo các bước dưới đây để thực hiện điều chỉnh hiệu suất thử nghiệm ETL -

  • Step 1 - Tìm phụ tải đang chuyển hóa trong sản xuất.

  • Step 2 - Tạo dữ liệu mới của cùng tải đó hoặc chuyển từ dữ liệu Sản xuất sang máy chủ hiệu suất cục bộ của bạn.

  • Step 3 - Vô hiệu hóa ETL cho đến khi bạn tạo tải được yêu cầu.

  • Step 4 - Lấy số lượng dữ liệu cần thiết từ các bảng của cơ sở dữ liệu.

  • Step 5- Ghi lại lần chạy ETL cuối cùng và kích hoạt ETL, để nó có đủ ứng suất để biến đổi toàn bộ tải được tạo ra. Chạy nó

  • Step 6 - Sau khi ETL hoàn thành quá trình chạy, hãy đếm dữ liệu đã tạo.

Các chỉ số hiệu suất chính

  • Tìm tổng thời gian cần thiết để biến đổi tải.
  • Tìm hiểu xem thời gian hoạt động đã được cải thiện hay giảm xuống.
  • Kiểm tra xem toàn bộ tải dự kiến ​​đã được trích xuất và chuyển chưa.

Mục tiêu của thử nghiệm ETL là đạt được dữ liệu đáng tin cậy. Có thể đạt được độ tin cậy về dữ liệu bằng cách làm cho chu trình thử nghiệm hiệu quả hơn.

Một chiến lược kiểm tra toàn diện là việc thiết lập một chu kỳ kiểm tra hiệu quả. Chiến lược kiểm tra nên bao gồm việc lập kế hoạch kiểm tra cho từng giai đoạn của quy trình ETL, mỗi khi dữ liệu di chuyển và nêu rõ trách nhiệm của từng bên liên quan, ví dụ: nhà phân tích kinh doanh, nhóm cơ sở hạ tầng, nhóm QA, DBA, Nhà phát triển và Người dùng doanh nghiệp.

Để đảm bảo sự sẵn sàng kiểm tra từ mọi khía cạnh, các lĩnh vực chính mà chiến lược kiểm tra cần tập trung là:

  • Phạm vi kiểm thử - Mô tả các kỹ thuật và loại kiểm thử sẽ được sử dụng.

  • Thiết lập môi trường thử nghiệm.

  • Tính khả dụng của dữ liệu thử nghiệm - Nên có dữ liệu sản xuất như dữ liệu bao gồm tất cả / yêu cầu kinh doanh quan trọng.

  • Chất lượng dữ liệu và tiêu chí chấp nhận hiệu suất.

Trong thử nghiệm ETL, độ chính xác của dữ liệu được sử dụng để đảm bảo liệu dữ liệu có được tải chính xác vào hệ thống mục tiêu như mong đợi hay không. Các bước quan trọng để thực hiện độ chính xác của dữ liệu như sau:

So sánh giá trị

So sánh giá trị liên quan đến việc so sánh dữ liệu trong hệ thống nguồn và hệ thống đích với sự biến đổi tối thiểu hoặc không. Nó có thể được thực hiện bằng cách sử dụng các công cụ Kiểm tra ETL khác nhau, ví dụ: Chuyển đổi Bộ định nguồn trong Informatica.

Một số phép biến đổi biểu thức cũng có thể được thực hiện trong kiểm tra độ chính xác của dữ liệu. Các toán tử tập hợp khác nhau có thể được sử dụng trong các câu lệnh SQL để kiểm tra độ chính xác của dữ liệu trong hệ thống nguồn và hệ thống đích. Các toán tử phổ biến là các toán tử Minus và Intersect. Kết quả của các toán tử này có thể được coi là sai lệch về giá trị trong hệ thống đích và hệ thống nguồn.

Kiểm tra các cột dữ liệu quan trọng

Các cột dữ liệu quan trọng có thể được kiểm tra bằng cách so sánh các giá trị khác nhau trong hệ thống nguồn và hệ thống đích. Đây là một truy vấn mẫu có thể được sử dụng để kiểm tra các cột dữ liệu quan trọng -

SELECT cust_name, Order_Id, city, count(*) FROM customer 
GROUP BY cust_name, Order_Id, city;

Kiểm tra siêu dữ liệu liên quan đến việc xác thực nguồn và cấu trúc bảng đích trong tài liệu ánh xạ. Tài liệu ánh xạ có thông tin chi tiết về cột nguồn và cột đích, quy tắc chuyển đổi dữ liệu và kiểu dữ liệu, tất cả các trường xác định cấu trúc của bảng trong hệ thống nguồn và đích.

Kiểm tra độ dài dữ liệu

Độ dài của kiểu dữ liệu cột mục tiêu phải bằng hoặc lớn hơn kiểu dữ liệu cột nguồn. Chúng ta hãy lấy một ví dụ. Giả sử bạn có tên và họ trong bảng nguồn và độ dài dữ liệu cho mỗi tên được xác định là 50 ký tự. Sau đó, độ dài dữ liệu mục tiêu cho cột tên đầy đủ trong hệ thống mục tiêu phải tối thiểu là 100 hoặc hơn.

Kiểm tra kiểu dữ liệu

Kiểm tra kiểu dữ liệu bao gồm việc xác minh nguồn và kiểu dữ liệu đích và đảm bảo rằng chúng giống nhau. Có khả năng kiểu dữ liệu đích khác với dữ liệu nguồn sau khi chuyển đổi. Do đó cũng cần phải kiểm tra các quy tắc biến đổi.

Ràng buộc / Kiểm tra chỉ mục

Kiểm tra ràng buộc bao gồm việc xác minh các giá trị chỉ mục và các ràng buộc theo tài liệu đặc điểm kỹ thuật thiết kế. Tất cả các cột không thể có giá trị Null phải có ràng buộc Không Null. Các cột khóa chính được lập chỉ mục theo tài liệu thiết kế.

Việc thực hiện các phép biến đổi dữ liệu hơi phức tạp, vì nó không thể đạt được bằng cách viết một truy vấn SQL đơn và sau đó so sánh kết quả đầu ra với đích. Đối với Chuyển đổi dữ liệu thử nghiệm ETL, bạn có thể phải viết nhiều truy vấn SQL cho mỗi hàng để xác minh các quy tắc chuyển đổi.

Để bắt đầu, hãy đảm bảo dữ liệu nguồn đủ để kiểm tra tất cả các quy tắc chuyển đổi. Chìa khóa để thực hiện thử nghiệm ETL thành công cho các phép biến đổi dữ liệu là chọn dữ liệu mẫu chính xác và đủ từ hệ thống nguồn để áp dụng các quy tắc chuyển đổi.

Các bước chính để chuyển đổi dữ liệu thử nghiệm ETL được liệt kê dưới đây:

  • Bước đầu tiên là tạo một danh sách các kịch bản về dữ liệu đầu vào và kết quả mong đợi và xác nhận những kịch bản này với khách hàng doanh nghiệp. Đây là một cách tiếp cận tốt để thu thập các yêu cầu trong quá trình thiết kế và cũng có thể được sử dụng như một phần của thử nghiệm.

  • Bước tiếp theo là tạo dữ liệu thử nghiệm chứa tất cả các tình huống. Sử dụng một nhà phát triển ETL để tự động hóa toàn bộ quá trình điền các tập dữ liệu với bảng tính kịch bản để cho phép tính linh hoạt và tính di động vì lý do các kịch bản có thể thay đổi.

  • Tiếp theo, sử dụng kết quả cấu hình dữ liệu để so sánh phạm vi và việc gửi các giá trị trong mỗi trường giữa dữ liệu đích và dữ liệu nguồn.

  • Xác thực việc xử lý chính xác các trường được tạo ETL, ví dụ: khóa thay thế.

  • Việc xác thực các kiểu dữ liệu trong kho giống như được chỉ định trong mô hình dữ liệu hoặc thiết kế.

  • Tạo kịch bản dữ liệu giữa các bảng kiểm tra tính toàn vẹn của tham chiếu.

  • Xác thực các mối quan hệ cha-con trong dữ liệu.

  • Bước cuối cùng là thực hiện lookup transformation. Truy vấn tra cứu của bạn phải thẳng mà không có bất kỳ tổng hợp nào và dự kiến ​​chỉ trả lại một giá trị cho mỗi bảng nguồn. Bạn có thể tham gia trực tiếp bảng tra cứu trong bộ định nguồn như trong thử nghiệm trước. Nếu không đúng như vậy, hãy viết một truy vấn nối bảng tra cứu với bảng chính trong nguồn và so sánh dữ liệu trong các cột tương ứng trong mục tiêu.

Kiểm tra chất lượng dữ liệu trong quá trình thử nghiệm ETL liên quan đến việc thực hiện kiểm tra chất lượng trên dữ liệu được tải trong hệ thống đích. Nó bao gồm các bài kiểm tra sau:

Kiểm tra số

Định dạng Số phải giống nhau trên toàn bộ hệ thống đích. Ví dụ, trong hệ thống nguồn, định dạng đánh số các cột làx.30, nhưng nếu mục tiêu chỉ là 30, sau đó nó phải tải không có tiền tố x. trong số cột mục tiêu.

Kiểm tra ngày tháng

Định dạng Ngày phải nhất quán trong cả hệ thống nguồn và hệ thống đích. Ví dụ, nó phải giống nhau trên tất cả các bản ghi. Định dạng Chuẩn là: yyyy-mm-dd.

Kiểm tra độ chính xác

Giá trị chính xác sẽ hiển thị như mong đợi trong bảng mục tiêu. Ví dụ: trong bảng nguồn, giá trị là 15,23422, nhưng trong bảng đích, giá trị đó sẽ hiển thị là 15,23 hoặc vòng 15.

Kiểm tra dữ liệu

Nó liên quan đến việc kiểm tra dữ liệu theo yêu cầu kinh doanh. Các bản ghi không đáp ứng các tiêu chí nhất định nên được lọc ra.

Example - Chỉ những bản ghi có date_id> = 2015 và Account_Id! = '001' mới được tải trong bảng đích.

Kiểm tra rỗng

Một số cột phải có Null theo yêu cầu và các giá trị có thể có cho trường đó.

Example - Cột Ngày chấm dứt sẽ hiển thị Null trừ khi và cho đến khi Cột trạng thái Hoạt động của nó là “T” hoặc “Đã chết”.

Séc khác

Có thể thực hiện các kiểm tra thông thường như From_Date không lớn hơn To_Date.

Kiểm tra tính đầy đủ của dữ liệu được thực hiện để xác minh rằng dữ liệu trong hệ thống đích là như mong đợi sau khi tải.

Các thử nghiệm phổ biến có thể được thực hiện cho điều này như sau:

  • Kiểm tra các hàm Tổng hợp (tổng, tối đa, tối thiểu, đếm),

  • Kiểm tra và xác thực số lượng và dữ liệu thực tế giữa nguồn và đích đối với các cột không có phép biến đổi hoặc bằng các phép biến đổi đơn giản.

Đếm xác thực

So sánh số lượng bản ghi trong bảng nguồn và bảng đích. Nó có thể được thực hiện bằng cách viết các truy vấn sau:

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Xác thực hồ sơ dữ liệu

Nó liên quan đến việc kiểm tra các hàm tổng hợp như đếm, tổng và tối đa trong bảng nguồn và bảng đích (thực tế hoặc thứ nguyên).

Xác thực cấu hình dữ liệu cột

Nó liên quan đến việc so sánh các giá trị riêng biệt và số lượng hàng cho mỗi giá trị riêng biệt.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Xác thực dữ liệu trùng lặp

Nó liên quan đến việc xác thực khóa chính và khóa duy nhất trong một cột hoặc kết hợp các cột phải là duy nhất theo yêu cầu nghiệp vụ. Bạn có thể sử dụng truy vấn sau để thực hiện xác thực dữ liệu trùng lặp -

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;

Khôi phục sao lưu cho hệ thống được lên kế hoạch để đảm bảo rằng hệ thống được khôi phục càng sớm càng tốt khi bị lỗi và các hoạt động được tiếp tục lại càng sớm càng tốt mà không làm mất bất kỳ dữ liệu quan trọng nào.

Thử nghiệm khôi phục ETL Backup được sử dụng để đảm bảo rằng hệ thống Data Warehouse khôi phục thành công từ phần cứng, phần mềm hoặc từ sự cố mạng do mất bất kỳ dữ liệu nào.

Một kế hoạch dự phòng thích hợp phải được chuẩn bị để đảm bảo hệ thống sẵn sàng tối đa. Hệ thống sao lưu sẽ có thể khôi phục dễ dàng và sẽ tiếp quản hệ thống bị lỗi mà không bị mất dữ liệu.

Kiểm tra ETL Khôi phục sao lưu liên quan đến việc để ứng dụng hoặc hệ thống DW trong điều kiện khắc nghiệt đối với bất kỳ thành phần phần cứng nào, sự cố phần mềm, v.v. Bước tiếp theo là đảm bảo rằng quá trình khôi phục được bắt đầu, xác minh hệ thống được thực hiện và khôi phục dữ liệu.

Kiểm tra ETL chủ yếu được thực hiện bằng cách sử dụng các tập lệnh SQL và thu thập dữ liệu trong bảng tính. Cách tiếp cận này để thực hiện kiểm tra ETL rất chậm và tốn thời gian, dễ xảy ra lỗi và được thực hiện trên dữ liệu mẫu.

Thử thách kỹ thuật trong thử nghiệm ETL thủ công

Nhóm kiểm tra ETL của bạn viết các truy vấn SQL để kiểm tra dữ liệu trong hệ thống kho và họ cần thực thi chúng theo cách thủ công bằng trình soạn thảo SQL, sau đó đưa dữ liệu vào bảng tính Excel và so sánh chúng theo cách thủ công. Quá trình này tốn thời gian, tốn kém tài nguyên và không hiệu quả.

Có nhiều công cụ khác nhau có sẵn trên thị trường để tự động hóa quá trình này. Các công cụ kiểm tra ETL phổ biến nhất là QuerySurge và Informatica Data Validation.

QuerySurge

QuerySurge là một giải pháp kiểm tra dữ liệu được thiết kế để kiểm tra Dữ liệu lớn, Kho dữ liệu và quy trình ETL. Nó có thể tự động hóa toàn bộ quy trình cho bạn và phù hợp tuyệt vời với chiến lược DevOps của bạn.

Các tính năng chính của QuerySurge như sau:

  • Nó có các trình hướng dẫn truy vấn để tạo các QueryPairs thử nghiệm nhanh chóng và dễ dàng mà người dùng không cần phải viết bất kỳ SQL nào.

  • Nó có Thư viện thiết kế với các Đoạn mã truy vấn có thể tái sử dụng. Bạn cũng có thể tạo QueryPairs tùy chỉnh.

  • Nó có thể so sánh dữ liệu từ các tệp nguồn và kho dữ liệu với Kho dữ liệu mục tiêu hoặc kho Dữ liệu lớn.

  • Nó có thể so sánh hàng triệu hàng và cột dữ liệu trong vài phút.

  • Nó cho phép người dùng lập lịch kiểm tra để chạy (1) ngay lập tức, (2) bất kỳ ngày / giờ nào hoặc (3) tự động sau khi sự kiện kết thúc.

  • Nó có thể tạo ra các báo cáo thông tin, xem các bản cập nhật và gửi kết quả tự động qua email cho nhóm của bạn.

Để tự động hóa toàn bộ quy trình, công cụ ETL của bạn nên khởi động QuerySurge thông qua API dòng lệnh sau khi phần mềm ETL hoàn thành quá trình tải.

QuerySurge sẽ chạy tự động và không cần giám sát, thực hiện tất cả các bài kiểm tra và sau đó gửi kết quả qua email cho mọi người trong nhóm.

Cũng giống như QuerySurge, Informatica Data Validation cung cấp một công cụ kiểm tra ETL giúp bạn tăng tốc và tự động hóa quy trình kiểm tra ETL trong môi trường phát triển và sản xuất. Nó cho phép bạn cung cấp phạm vi kiểm tra hoàn chỉnh, có thể lặp lại và có thể nghe được trong thời gian ngắn hơn. Nó không yêu cầu kỹ năng lập trình!

Để kiểm tra một hệ thống kho dữ liệu hoặc một ứng dụng BI, người ta cần phải có cách tiếp cận lấy dữ liệu làm trung tâm. Các phương pháp hay nhất về Thử nghiệm ETL giúp giảm thiểu chi phí và thời gian để thực hiện thử nghiệm. Nó cải thiện chất lượng dữ liệu được tải vào hệ thống mục tiêu tạo ra các trang tổng quan và báo cáo chất lượng cao cho người dùng cuối.

Chúng tôi đã liệt kê ở đây một số phương pháp hay nhất có thể được tuân theo để Kiểm tra ETL -

Phân tích dữ liệu

Điều cực kỳ quan trọng là phải phân tích dữ liệu để hiểu các yêu cầu nhằm thiết lập một mô hình dữ liệu chính xác. Dành thời gian để hiểu các yêu cầu và có một mô hình dữ liệu chính xác cho hệ thống mục tiêu có thể giảm bớt các thách thức ETL. Điều quan trọng là phải nghiên cứu hệ thống nguồn, chất lượng dữ liệu và xây dựng các quy tắc xác thực dữ liệu chính xác cho các mô-đun ETL. Chiến lược ETL nên được xây dựng dựa trên cấu trúc dữ liệu của nguồn và hệ thống đích.

Khắc phục dữ liệu xấu trong hệ thống nguồn

Người dùng cuối thường nhận thức được các vấn đề về dữ liệu, nhưng họ không biết cách khắc phục chúng. Điều quan trọng là phải tìm ra những lỗi này và sửa chúng trước khi chúng đến được hệ thống ETL. Một cách phổ biến để giải quyết vấn đề này là tại thời điểm thực thi ETL, nhưng cách tốt nhất là tìm các lỗi trong hệ thống nguồn và thực hiện các bước để khắc phục chúng ở cấp hệ thống nguồn.

Tìm một công cụ ETL tương thích

Một trong những phương pháp hay nhất về ETL phổ biến là chọn một công cụ tương thích nhất với nguồn và hệ thống đích. Khả năng tạo các tập lệnh SQL cho nguồn và hệ thống đích của công cụ ETL có thể giảm thời gian xử lý và tài nguyên. Nó cho phép người ta xử lý biến đổi ở bất kỳ đâu trong môi trường thích hợp nhất.

Giám sát công việc ETL

Một thực tiễn tốt nhất khác trong quá trình triển khai ETL là lập lịch, kiểm tra và giám sát các công việc ETL để đảm bảo rằng các tải được thực hiện như mong đợi.

Tích hợp dữ liệu gia tăng

Đôi khi, các bảng kho dữ liệu có kích thước lớn hơn và không thể làm mới chúng trong mỗi chu kỳ ETL. Các tải tăng dần đảm bảo rằng chỉ các bản ghi được thay đổi kể từ lần cập nhật cuối cùng được đưa vào quy trình ETL và nó có tác động rất lớn đến khả năng mở rộng và thời gian thực hiện để làm mới hệ thống.

Thông thường các hệ thống nguồn không có dấu thời gian hoặc khóa chính để dễ dàng xác định các thay đổi. Những vấn đề như vậy có thể rất tốn kém, nếu được xác định ở giai đoạn sau của dự án. Một trong những thực tiễn tốt nhất của ETL là đề cập đến các khía cạnh như vậy trong nghiên cứu hệ thống nguồn ban đầu. Kiến thức này giúp nhóm ETL xác định các vấn đề nắm bắt dữ liệu đã thay đổi và xác định chiến lược phù hợp nhất.

Khả năng mở rộng

Cách tốt nhất là đảm bảo rằng giải pháp ETL được cung cấp có thể mở rộng. Tại thời điểm triển khai, người ta cần đảm bảo rằng giải pháp ETL có khả năng mở rộng với yêu cầu kinh doanh và khả năng tăng trưởng của nó trong tương lai.