ハードウェアソフトウェアのトレードオフ

ハードウェアのコストを削減する方法はたくさんあります。1つの方法は、通信支援とネットワークを処理ノードにあまり緊密に統合せず、通信の待ち時間と占有率を増やすことです。

もう1つの方法は、ハードウェアではなくソフトウェアで自動レプリケーションとコヒーレンスを提供することです。後者の方法は、メインメモリでレプリケーションとコヒーレンスを提供し、さまざまな粒度で実行できます。これにより、ノードと相互接続に既製の商品部品を使用できるようになり、ハードウェアコストを最小限に抑えることができます。これは、優れたパフォーマンスを達成するようにプログラマーに圧力をかけます。

緩和されたメモリ整合性モデル

共有アドレス空間のメモリ整合性モデルは、同じ場所または異なる場所でのメモリ操作が相互に実行されているように見える順序で制約を定義します。実際、共有アドレス空間命名モデルをサポートするシステムレイヤーには、プログラマーのインターフェイス、ユーザーシステムインターフェイス、およびハードウェアとソフトウェアのインターフェイスを含むメモリ整合性モデルが必要です。その層と相互作用するソフトウェアは、それ自体のメモリ整合性モデルを認識している必要があります。

システム仕様

アーキテクチャのシステム仕様では、メモリ操作の順序と並べ替え、およびそれから実際にどれだけのパフォーマンスを得ることができるかを指定します。

以下は、プログラム順序で緩和を使用するいくつかの仕様モデルです。

  • Relaxing the Write-to-Read Program Order−このクラスのモデルにより、ハードウェアは、第1レベルのキャッシュメモリで失われた書き込み操作の遅延を抑制することができます。書き込みミスが書き込みバッファにあり、他のプロセッサからは見えない場合、プロセッサは、キャッシュメモリでヒットした読み取り、またはキャッシュメモリでミスした単一の読み取りを完了することができます。

  • Relaxing the Write-to-Read and Write-to-Write Program Orders−書き込みがさまざまな場所への以前の未処理の書き込みをバイパスできるようにすると、メインメモリを更新する前に複数の書き込みを書き込みバッファにマージできます。したがって、複数の書き込みミスがオーバーラップし、順序が狂って見えるようになります。その動機は、書き込みレイテンシがプロセッサのブレーク時間に与える影響をさらに最小限に抑え、新しいデータ値を他のプロセッサに表示することで、プロセッサ間の通信効率を高めることです。

  • Relaxing All Program Orders−プロセス内のデータとコントロールの依存関係を除いて、デフォルトではプログラムの順序は保証されません。したがって、利点は、複数の読み取り要求を同時に未処理にすることができ、プログラムの順序で後の書き込みによってバイパスでき、それ自体が順不同で完了することができるため、読み取りの待ち時間を隠すことができることです。このタイプのモデルは、他のメモリ参照への過去の読み取りミスを継続できる動的にスケジュールされたプロセッサに特に役立ちます。それらは、コンパイラの最適化によって行われるアクセスの排除でさえ、多くの並べ替えを可能にします。

プログラミングインターフェース

プログラミングインターフェイスは、同期操作間でプログラムの順序をまったく維持する必要がないことを前提としています。すべての同期操作が明示的にラベル付けまたは識別されていることが保証されます。ランタイムライブラリまたはコンパイラは、これらの同期操作を、システム仕様で要求される適切な順序保持操作に変換します。

次に、システムは、プロセス内の場所への依存を中断することなく、同期操作間で操作を任意の方法で並べ替えることができる場合でも、順次一貫した実行を保証します。これにより、コンパイラは、必要な並べ替えのために同期ポイント間で十分な柔軟性を得ることができます。また、プロセッサは、メモリモデルで許可されている数の並べ替えを実行できます。プログラマーのインターフェースでは、整合性モデルは少なくともハードウェアインターフェースのモデルと同じくらい弱い必要がありますが、同じである必要はありません。

翻訳メカニズム

ほとんどのマイクロプロセッサでは、ラベルを順序維持メカニズムに変換することは、同期としてラベル付けされた各操作の前および/または後に適切なメモリバリア命令を挿入することを意味します。強制する順序を示し、余分な指示を回避する個々のロード/ストアを含む指示を保存します。ただし、操作は通常頻繁ではないため、これはほとんどのマイクロプロセッサがこれまで行ってきた方法ではありません。

容量制限の克服

プロセッサキャッシュメモリ内のハードウェアでのみ自動レプリケーションとコヒーレンスを提供するシステムについて説明しました。プロセッサキャッシュは、最初にローカルメインメモリに複製されることなく、リモートで割り当てられたデータを参照時に直接複製します。

これらのシステムの問題は、ローカルレプリケーションの範囲がハードウェアキャッシュに制限されていることです。ブロックがキャッシュメモリから置き換えられた場合、再度必要になったときにリモートメモリからフェッチする必要があります。このセクションで説明するシステムの主な目的は、レプリケーション容量の問題を解決することですが、ハードウェアの一貫性とキャッシュブロックの細分性を提供して効率を高めます。

三次キャッシュ

レプリケーション容量の問題を解決するための1つの方法は、大きいが低速のリモートアクセスキャッシュを使用することです。これは、マシンのノード自体が小規模なマルチプロセッサであり、パフォーマンスのために単純に大きくできる場合に、機能のために必要です。また、ローカルプロセッサのキャッシュメモリから置き換えられた複製されたリモートブロックも保持します。

キャッシュオンリーメモリアーキテクチャ(COMA)

COMAマシンでは、メインメモリ全体のすべてのメモリブロックにハードウェアタグがリンクされています。メモリブロックに割り当てられるスペースが常に保証される固定ノードはありません。データは、それらにアクセス/引き付けるノードのメインメモリに動的に移行または複製されます。リモートブロックにアクセスすると、アトラクションメモリに複製されてキャッシュに取り込まれ、ハードウェアによって両方の場所で一貫性が保たれます。データブロックは、任意のアトラクションメモリに存在し、一方から他方に簡単に移動できます。

ハードウェアコストの削減

コストを削減するということは、専用ハードウェアの一部の機能を既存のハードウェアで実行されているソフトウェアに移行することを意味します。ソフトウェアは、ハードウェアキャッシュよりも、メインメモリでレプリケーションとコヒーレンスを管理する方がはるかに簡単です。低コストの方法は、メインメモリでレプリケーションとコヒーレンスを提供する傾向があります。コヒーレンスを効率的に制御するために、アシストの他の各機能コンポーネントは、ハードウェアの特殊化と統合の恩恵を受けることができます。

研究努力は、特殊なハードウェアでアクセス制御を実行するが、ソフトウェアとコモディティハードウェアに他のアクティビティを割り当てるなど、さまざまなアプローチでコストを削減することを目的としています。別のアプローチは、ソフトウェアでアクセス制御を実行することによるものであり、特別なハードウェアサポートなしでコモディティノードおよびネットワーク上でコヒーレントな共有アドレス空間の抽象化を割り当てるように設計されています。

並列ソフトウェアへの影響

緩和されたメモリ整合性モデルでは、並列プログラムが目的の競合するアクセスを同期ポイントとしてラベル付けする必要があります。プログラミング言語は、いくつかの変数に同期としてラベルを付けるためのサポートを提供します。同期は、コンパイラーによって適切な順序保持命令に変換されます。コンパイラー自身の共有メモリーへのアクセスの並べ替えを制限するために、コンパイラーはそれ自体でラベルを使用できます。