ETLテスト–はじめに

データウェアハウスシステムのデータは、ETL(抽出、変換、読み込み)ツールで読み込まれます。名前が示すように、次の3つの操作を実行します-

  • Oracle、Microsoft、またはその他のリレーショナルデータベースであるトランザクションシステムからデータを抽出します。

  • データクレンジング操作を実行してデータを変換してから、

  • データをOL​​APデータウェアハウスにロードします。

ETLツールを使用してスプレッドシートやCSVファイルなどのフラットファイルからデータを抽出し、データ分析とレポートのためにOLAPデータウェアハウスにロードすることもできます。それをよりよく理解するために例を見てみましょう。

営業、人事、資材管理、EWMなどの複数の部門を持つ製造会社があるとします。これらの部門はすべて、作業に関する情報を維持するために使用する個別のデータベースを持ち、各データベースには異なるテクノロジー、ランドスケープ、テーブルがあります。名前、列など。企業が履歴データを分析してレポートを生成する場合は、これらのデータソースからすべてのデータを抽出してデータウェアハウスにロードし、分析作業のために保存する必要があります。

ETLツールは、これらすべての異種データソースからデータを抽出し、データを変換して(計算の適用、フィールド、キーの結合、誤ったデータフィールドの削除など)、データウェアハウスにロードします。後で、さまざまなビジネスインテリジェンス(BI)ツールを使用して、このデータを使用して意味のあるレポート、ダッシュボード、および視覚化を生成できます。

ETLツールとBIツールの違い

ETLツールは、さまざまなデータソースからデータを抽出し、データを変換して、DWシステムにロードするために使用されます。ただし、BIツールを使用して、エンドユーザー向けのインタラクティブなアドホックレポート、上級管理職向けのダッシュボード、月次、四半期、および年次の取締役会のデータ視覚化を生成します。

最も一般的なETLツールには次のものがあります-SAPBO Data Services(BODS)、Informatica – Power Center、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、CloverETLオープンソースなど。

人気のあるBIツールには、SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI Platform、Tableau、Oracle Business Intelligence EnterpriseEditionなどがあります。

ETLプロセス

ここで、ETL手順に含まれる主要な手順についてもう少し詳しく説明します。

データの抽出

これには、さまざまな異種データソースからデータを抽出することが含まれます。トランザクションシステムからのデータ抽出は、要件と使用中のETLツールによって異なります。これは通常、夜間や週末にジョブを実行するなど、営業時間外にスケジュールされたジョブを実行することによって行われます。

データの変換

これには、データをDWシステムに簡単にロードできる適切な形式に変換することが含まれます。データ変換には、計算の適用、結合、およびデータの主キーと外部キーの定義が含まれます。たとえば、データベースにない総収益の%が必要な場合は、変換に%式を適用し、データをロードします。同様に、異なる列にユーザーの姓と名がある場合は、データをロードする前に連結操作を適用できます。一部のデータは変換を必要としません。そのようなデータはとして知られていますdirect move または pass through data

データ変換には、データの修正とデータのクレンジング、誤ったデータの削除、不完全なデータ形成、およびデータエラーの修正も含まれます。また、データの整合性と、互換性のないデータをDWシステムにロードする前のフォーマットも含まれます。

DWシステムへのデータのロード

これには、分析レポートと情報のためにデータをDWシステムにロードすることが含まれます。ターゲットシステムは、単純な区切りフラットファイルまたはデータウェアハウスにすることができます。

ETLツール機能

典型的なETLツールベースのデータウェアハウスは、ステージング領域、データ統合、およびアクセスレイヤーを使用してその機能を実行します。通常は3層アーキテクチャです。

  • Staging Layer −ステージングレイヤーまたはステージングデータベースは、さまざまなソースデータシステムから抽出されたデータを格納するために使用されます。

  • Data Integration Layer −統合レイヤーは、ステージングレイヤーからデータを変換し、データをデータベースに移動します。データベースでは、データは階層グループに配置されます。 dimensions、そしてに facts そして aggregate facts。DWシステムのファクトテーブルとディメンションテーブルの組み合わせは、schema

  • Access Layer −アクセスレイヤーは、分析レポートおよび情報のためにデータを取得するためにエンドユーザーによって使用されます。

次の図は、3つのレイヤーがどのように相互作用するかを示しています。