Teradata-ハッシュアルゴリズム
行は、プライマリインデックス値に基づいて特定のAMPに割り当てられます。Teradataは、ハッシュアルゴリズムを使用して、どのAMPが行を取得するかを決定します。
以下は、ハッシュアルゴリズムの概要図です。
データを挿入する手順は次のとおりです。
クライアントはクエリを送信します。
パーサーはクエリを受信し、レコードのPI値をハッシュアルゴリズムに渡します。
ハッシュアルゴリズムはプライマリインデックス値をハッシュし、行ハッシュと呼ばれる32ビットの数値を返します。
行ハッシュの上位ビット(最初の16ビット)は、ハッシュマップエントリを識別するために使用されます。ハッシュマップには1つのAMP番号が含まれています。ハッシュマップは、特定のAMP番号を含むバケットの配列です。
BYNETは、識別されたAMPにデータを送信します。
AMPは、32ビットの行ハッシュを使用してディスク内の行を検索します。
同じ行ハッシュを持つレコードがある場合は、32ビット番号である一意性IDをインクリメントします。新しい行ハッシュの場合、一意性IDは1として割り当てられ、同じ行ハッシュを持つレコードが挿入されるたびに増分されます。
行ハッシュと一意性IDの組み合わせは、行IDと呼ばれます。
行IDは、ディスク内の各レコードのプレフィックスになります。
AMPの各テーブル行は、行IDによって論理的にソートされます。
テーブルの保存方法
テーブルは行ID(行ハッシュ+一意性ID)でソートされ、AMP内に格納されます。行IDは、各データ行とともに保存されます。
行ハッシュ | 一意性ID | 従業員番号 | ファーストネーム | 苗字 |
---|---|---|---|---|
2A01 2611 | 0000 0001 | 101 | マイク | ジェームズ |
2A01 2612 | 0000 0001 | 104 | アレックス | スチュアート |
2A01 2613 | 0000 0001 | 102 | ロバート | ウィリアムズ |
2A01 2614 | 0000 0001 | 105 | ロバート | ジェームズ |
2A01 2615 | 0000 0001 | 103 | ピーター | ポール |