並列コンピュータアーキテクチャ-はじめに

過去50年間で、コンピュータシステムのパフォーマンスと機能に大きな進歩がありました。これは、超大規模集積回路(VLSI)技術の助けを借りて可能になりました。VLSIテクノロジーにより、多数のコンポーネントを1つのチップに収容し、クロックレートを上げることができます。したがって、一度により多くの操作を並行して実行できます。

並列処理は、データの局所性とデータ通信にも関連しています。 Parallel Computer Architecture は、すべてのリソースを編成して、テクノロジーとコストによって与えられた制限内でパフォーマンスとプログラム可能性を最大化する方法です。

なぜ並列アーキテクチャなのか?

並列コンピュータアーキテクチャは、ますます多くのプロセッサを使用することにより、コンピュータシステムの開発に新しい次元を追加します。原則として、多数のプロセッサを使用することによって達成されるパフォーマンスは、特定の時点での単一のプロセッサのパフォーマンスよりも高くなります。

アプリケーションの傾向

ハードウェア容量の進歩に伴い、高性能のアプリケーションに対する需要も高まり、その結果、コンピュータアーキテクチャの開発が求められました。

マイクロプロセッサ時代以前は、高性能のコンピュータシステムは、エキゾチックな回路技術と機械構成によって得られていたため、高価でした。現在、高性能のコンピュータシステムは複数のプロセッサを使用することによって得られ、最も重要で要求の厳しいアプリケーションは並列プログラムとして記述されています。したがって、パフォーマンスを向上させるには、並列アーキテクチャと並列アプリケーションの両方を開発する必要があります。

アプリケーションのパフォーマンスを向上させるには、スピードアップが考慮すべき重要な要素です。 Speedup pプロセッサでは、次のように定義されます。

$$ Speedup(p \プロセッサー)\ equiv \ frac {パフォーマンス(p \プロセッサー)} {パフォーマンス(1 \プロセッサー)} $$

単一の修正された問題の場合、

$$ performance \ of \ a \ computer \ system = \ frac {1} {Time \ required \ to \ complete \ the \ problem} $$ $$ Speedup \ _ {fixed \ problem}(p \ processors)= \ frac {時間(1 \プロセッサ)} {時間(p \プロセッサ)} $$

科学工学コンピューティング

並列アーキテクチャは、科学計算(物理学、化学、生物学、天文学など)およびエンジニアリングアプリケーション(貯留層モデリング、気流分析、燃焼効率など)に不可欠になっています。ほとんどすべてのアプリケーションで、計算出力の視覚化に対する大きな需要があり、その結果、計算速度を上げるための並列コンピューティングの開発が求められています。

コマーシャルコンピューティング

商用コンピューティング(ビデオ、グラフィックス、データベース、OLTPなど)では、指定された時間内に大量のデータを処理するために高速コンピューターも必要です。デスクトップは、並列プログラムとほとんど同じようなマルチスレッドプログラムを使用します。これにより、並列アーキテクチャを開発する必要があります。

テクノロジートレンド

技術とアーキテクチャの開発に伴い、高性能アプリケーションの開発に対する強い需要があります。実験によると、並列コンピューターは、開発された最大のシングルプロセッサーよりもはるかに高速に動作します。さらに、並列コンピュータは技術とコストの範囲内で開発できます。

ここで使用される主要な技術はVLSI技術です。したがって、今日では、ますます多くのトランジスタ、ゲート、および回路を同じ領域に取り付けることができます。基本的なVLSIフィーチャサイズの縮小に伴い、クロックレートもそれに比例して向上しますが、トランジスタの数は2乗に比例して増加します。一度に多くのトランジスタを使用する(並列処理)と、クロックレートを上げるよりもはるかに優れたパフォーマンスが期待できます。

技術動向は、基本的なシングルチップビルディングブロックがますます大容量を提供することを示唆しています。したがって、1つのチップに複数のプロセッサを配置する可能性が高くなります。

アーキテクチャのトレンド

テクノロジーの開発により、何が実現可能かが決まります。アーキテクチャは、テクノロジーの可能性をパフォーマンスと機能に変換します。Parallelism そして localityは、大量のリソースとより多くのトランジスタがパフォーマンスを向上させる2つの方法です。ただし、これら2つの方法は、同じリソースをめぐって競合します。複数の操作を並行して実行すると、プログラムの実行に必要なサイクル数が減少します。

ただし、並行する各アクティビティをサポートするには、リソースが必要です。ローカルストレージを割り当てるためのリソースも必要です。最高のパフォーマンスは、リソースを使用してある程度の並列性とある程度の局所性を利用する中間アクションプランによって達成されます。

一般に、コンピュータアーキテクチャの歴史は、次の基本的な技術を持つ4つの世代に分けられています。

  • 真空管
  • Transistors
  • 集積回路
  • VLSI

1985年まで、期間はビットレベルの並列性の増加によって支配されていました。4ビットマイクロプロセッサの後に8ビット、16ビットなどが続きます。完全な32ビット演算を実行するために必要なサイクル数を減らすために、データパスの幅が2倍になりました。その後、64ビット演算が導入されました。

の成長 instruction-level-parallelism80年代半ばから90年代半ばを支配しました。RISCアプローチは、命令処理のステップをパイプライン化するのが簡単で、平均してほぼすべてのサイクルで命令が実行されることを示しました。コンパイラテクノロジの成長により、命令パイプラインの生産性が向上しました。

80年代半ば、マイクロプロセッサベースのコンピュータは

  • 整数処理装置
  • 浮動小数点ユニット
  • キャッシュコントローラー
  • キャッシュデータ用のSRAM
  • タグストレージ

チップ容量が増えると、これらすべてのコンポーネントが1つのチップに統合されました。したがって、単一のチップは、整数演算、浮動小数点演算、メモリ演算、および分岐演算用の個別のハードウェアで構成されていました。個々の命令をパイプライン化する以外に、一度に複数の命令をフェッチし、可能な場合は常にそれらを異なる機能ユニットに並列に送信します。このタイプの命令レベルの並列性は、superscalar execution