Teradata-ハッシュアルゴリズム

行は、プライマリインデックス値に基づいて特定のAMPに割り当てられます。Teradataは、ハッシュアルゴリズムを使用して、どのAMPが行を取得するかを決定します。

以下は、ハッシュアルゴリズムの概要図です。

データを挿入する手順は次のとおりです。

  • クライアントはクエリを送信します。

  • パーサーはクエリを受信し、レコードのPI値をハッシュアルゴリズムに渡します。

  • ハッシュアルゴリズムはプライマリインデックス値をハッシュし、行ハッシュと呼ばれる32ビットの数値を返します。

  • 行ハッシュの上位ビット(最初の16ビット)は、ハッシュマップエントリを識別するために使用されます。ハッシュマップには1つのAMP番号が含まれています。ハッシュマップは、特定のAMP番号を含むバケットの配列です。

  • BYNETは、識別されたAMPにデータを送信します。

  • AMPは、32ビットの行ハッシュを使用してディスク内の行を検索します。

  • 同じ行ハッシュを持つレコードがある場合は、32ビット番号である一意性IDをインクリメントします。新しい行ハッシュの場合、一意性IDは1として割り当てられ、同じ行ハッシュを持つレコードが挿入されるたびに増分されます。

  • 行ハッシュと一意性IDの組み合わせは、行IDと呼ばれます。

  • 行IDは、ディスク内の各レコードのプレフィックスになります。

  • AMPの各テーブル行は、行IDによって論理的にソートされます。

テーブルの保存方法

テーブルは行ID(行ハッシュ+一意性ID)でソートされ、AMP内に格納されます。行IDは、各データ行とともに保存されます。

行ハッシュ 一意性ID 従業員番号 ファーストネーム 苗字
2A01 2611 0000 0001 101 マイク ジェームズ
2A01 2612 0000 0001 104 アレックス スチュアート
2A01 2613 0000 0001 102 ロバート ウィリアムズ
2A01 2614 0000 0001 105 ロバート ジェームズ
2A01 2615 0000 0001 103 ピーター ポール