Parallele Computerarchitektur - Einführung

In den letzten 50 Jahren hat sich die Leistung und Leistungsfähigkeit eines Computersystems enorm entwickelt. Dies war mithilfe der VLSI-Technologie (Very Large Scale Integration) möglich. Mit der VLSI-Technologie kann eine große Anzahl von Komponenten auf einem einzigen Chip untergebracht und die Taktraten erhöht werden. Daher können mehrere Operationen gleichzeitig parallel ausgeführt werden.

Die parallele Verarbeitung ist auch mit der Datenlokalität und der Datenkommunikation verbunden. Parallel Computer Architecture ist die Methode zum Organisieren aller Ressourcen, um die Leistung und Programmierbarkeit innerhalb der durch die Technologie und die Kosten jederzeit gegebenen Grenzen zu maximieren.

Warum parallele Architektur?

Die parallele Computerarchitektur erweitert die Entwicklung von Computersystemen um eine neue Dimension, indem immer mehr Prozessoren verwendet werden. Im Prinzip ist die Leistung, die durch die Verwendung einer großen Anzahl von Prozessoren erzielt wird, höher als die Leistung eines einzelnen Prozessors zu einem bestimmten Zeitpunkt.

Anwendungstrends

Mit der Weiterentwicklung der Hardwarekapazität stieg auch die Nachfrage nach einer leistungsfähigen Anwendung, was wiederum Anforderungen an die Entwicklung der Computerarchitektur stellte.

Vor der Mikroprozessor-Ära wurde ein leistungsstarkes Computersystem durch exotische Schaltungstechnologie und Maschinenorganisation erhalten, was sie teuer machte. Jetzt wird ein leistungsstarkes Computersystem unter Verwendung mehrerer Prozessoren erhalten, und die wichtigsten und anspruchsvollsten Anwendungen werden als parallele Programme geschrieben. Für eine höhere Leistung müssen daher sowohl parallele Architekturen als auch parallele Anwendungen entwickelt werden.

Um die Leistung einer Anwendung zu steigern, ist die Beschleunigung der zu berücksichtigende Schlüsselfaktor. Speedup on p Prozessoren ist definiert als -

$$ Speedup (p \ Prozessoren) \ equiv \ frac {Leistung (p \ Prozessoren)} {Leistung (1 \ Prozessor)} $$

Für das einzelne behobene Problem

$$ Leistung \ von \ a \ Computer \ System = \ frac {1} {Zeit \ benötigt \, um \ das \ Problem \ abzuschließen} $$ $$ Beschleunigung \ _ {behobenes \ Problem} (p \ Prozessoren) = \ frac {Zeit (1 \ Prozessor)} {Zeit (p \ Prozessor)} $$

Wissenschaftliches und technisches Rechnen

Parallele Architektur ist im wissenschaftlichen Rechnen (wie Physik, Chemie, Biologie, Astronomie usw.) und in technischen Anwendungen (wie Reservoirmodellierung, Luftstromanalyse, Verbrennungseffizienz usw.) unverzichtbar geworden. In fast allen Anwendungen besteht ein großer Bedarf an Visualisierung der Rechenleistung, was zur Entwicklung eines parallelen Rechnens zur Erhöhung der Rechengeschwindigkeit führt.

Kommerzielles Rechnen

Beim kommerziellen Rechnen (wie Video, Grafik, Datenbanken, OLTP usw.) werden auch Hochgeschwindigkeitscomputer benötigt, um große Datenmengen innerhalb einer bestimmten Zeit zu verarbeiten. Desktop verwendet Multithread-Programme, die fast den parallelen Programmen ähneln. Dies erfordert wiederum die Entwicklung einer parallelen Architektur.

Technologietrends

Mit der Entwicklung von Technologie und Architektur besteht eine starke Nachfrage nach der Entwicklung leistungsfähiger Anwendungen. Experimente zeigen, dass parallele Computer viel schneller arbeiten können als der am weitesten entwickelte Einzelprozessor. Darüber hinaus können parallele Computer im Rahmen der Technologie und der Kosten entwickelt werden.

Die hier verwendete Primärtechnologie ist die VLSI-Technologie. Daher können heutzutage immer mehr Transistoren, Gates und Schaltungen in den gleichen Bereich eingebaut werden. Mit der Reduzierung der grundlegenden VLSI-Merkmalsgröße verbessert sich auch die Taktrate proportional dazu, während die Anzahl der Transistoren mit dem Quadrat zunimmt. Es ist zu erwarten, dass die Verwendung vieler Transistoren gleichzeitig (Parallelität) viel besser funktioniert als durch Erhöhen der Taktrate

Technologietrends deuten darauf hin, dass der grundlegende Einzelchip-Baustein eine immer größere Kapazität bietet. Daher erhöht sich die Möglichkeit, mehrere Prozessoren auf einem einzigen Chip zu platzieren.

Architektonische Trends

Die technologische Entwicklung entscheidet, was machbar ist. Architektur wandelt das Potenzial der Technologie in Leistung und Leistungsfähigkeit um.Parallelism und localitysind zwei Methoden, bei denen größere Ressourcenmengen und mehr Transistoren die Leistung verbessern. Diese beiden Methoden konkurrieren jedoch um dieselben Ressourcen. Wenn mehrere Operationen gleichzeitig ausgeführt werden, wird die Anzahl der zur Ausführung des Programms erforderlichen Zyklen verringert.

Es werden jedoch Ressourcen benötigt, um jede der gleichzeitigen Aktivitäten zu unterstützen. Ressourcen werden auch benötigt, um lokalen Speicher zuzuweisen. Die beste Leistung wird durch einen Zwischenaktionsplan erzielt, der Ressourcen verwendet, um ein gewisses Maß an Parallelität und ein gewisses Maß an Lokalität zu nutzen.

Im Allgemeinen wurde die Geschichte der Computerarchitektur in vier Generationen mit folgenden Basistechnologien unterteilt:

  • Vakuumröhren
  • Transistors
  • Integrierte Schaltkreise
  • VLSI

Bis 1985 war die Dauer von der Zunahme der Parallelität auf Bitebene geprägt. 4-Bit-Mikroprozessoren, gefolgt von 8-Bit, 16-Bit usw. Um die Anzahl der Zyklen zu verringern, die zur Durchführung einer vollständigen 32-Bit-Operation erforderlich sind, wurde die Breite des Datenpfads verdoppelt. Später wurden 64-Bit-Operationen eingeführt.

Das Wachstum in instruction-level-parallelismdominierte die Mitte der 80er bis Mitte der 90er Jahre. Der RISC-Ansatz zeigte, dass es einfach war, die Schritte der Befehlsverarbeitung so zu leiten, dass im Durchschnitt ein Befehl in fast jedem Zyklus ausgeführt wird. Das Wachstum der Compilertechnologie hat die Produktivität von Anweisungspipelines erhöht.

Mitte der 80er Jahre bestanden mikroprozessorbasierte Computer aus

  • Eine Ganzzahl-Verarbeitungseinheit
  • Eine Gleitkommaeinheit
  • Ein Cache-Controller
  • SRAMs für die Cache-Daten
  • Tag-Speicher

Mit zunehmender Chipkapazität wurden alle diese Komponenten zu einem einzigen Chip zusammengeführt. Somit bestand ein einzelner Chip aus separater Hardware für Ganzzahlarithmetik, Gleitkommaoperationen, Speicheroperationen und Verzweigungsoperationen. Anders als das Pipelining einzelner Anweisungen werden mehrere Anweisungen gleichzeitig abgerufen und nach Möglichkeit parallel an verschiedene Funktionseinheiten gesendet. Diese Art der Parallelität auf Befehlsebene wird aufgerufensuperscalar execution.