병렬 컴퓨터 아키텍처-퀵 가이드

지난 50 년 동안 컴퓨터 시스템의 성능과 기능이 크게 발전했습니다. 이는 VLSI (Very Large Scale Integration) 기술 덕분에 가능했습니다. VLSI 기술을 사용하면 단일 칩에 많은 구성 요소를 수용 할 수 있고 클럭 속도를 높일 수 있습니다. 따라서 한 번에 더 많은 작업을 병렬로 수행 할 수 있습니다.

병렬 처리는 데이터 지역성 및 데이터 통신과도 관련이 있습니다. Parallel Computer Architecture 모든 리소스를 구성하여 기술 및 비용에 의해 주어진 한계 내에서 성능과 프로그래밍 가능성을 극대화하는 방법입니다.

왜 병렬 아키텍처인가?

병렬 컴퓨터 아키텍처는 점점 더 많은 수의 프로세서를 사용하여 컴퓨터 시스템 개발에 새로운 차원을 추가합니다. 원칙적으로 많은 수의 프로세서를 사용하여 얻은 성능은 특정 시점에서 단일 프로세서의 성능보다 높습니다.

응용 동향

하드웨어 용량이 향상됨에 따라 우수한 성능의 응용 프로그램에 대한 수요도 증가했으며, 이에 따라 컴퓨터 아키텍처 개발에 대한 수요도 증가했습니다.

마이크로 프로세서 시대 이전에는 이국적인 회로 기술과 기계 구성을 통해 고성능 컴퓨터 시스템을 확보하여 비용이 많이 들었습니다. 이제 다중 프로세서를 사용하여 고성능 컴퓨터 시스템을 얻었으며 가장 중요하고 까다로운 응용 프로그램은 병렬 프로그램으로 작성됩니다. 따라서 더 높은 성능을 위해서는 병렬 아키텍처와 병렬 애플리케이션을 모두 개발해야합니다.

응용 프로그램의 성능을 높이기 위해 고려해야 할 핵심 요소는 속도 향상입니다. Speedup p 프로세서에서 다음과 같이 정의됩니다-

$$Speedup(p \ processors)\equiv\frac{Performance(p \ processors)}{Performance(1 \ processor)}$$

수정 된 단일 문제의 경우

$$performance \ of \ a \ computer \ system = \frac{1}{Time \ needed \ to \ complete \ the \ problem}$$ $$Speedup \ _{fixed \ problem} (p \ processors) =\frac{Time(1 \ processor)}{Time(p \ processor)}$$

과학 및 엔지니어링 컴퓨팅

병렬 아키텍처는 과학 컴퓨팅 (물리학, 화학, 생물학, 천문학 등) 및 엔지니어링 애플리케이션 (저수지 모델링, 기류 분석, 연소 효율 등)에 없어서는 안될 필수 요소가되었습니다. 거의 모든 응용 프로그램에서 계산 출력의 시각화에 대한 엄청난 요구가있어 계산 속도를 높이기 위해 병렬 컴퓨팅을 개발해야합니다.

상업용 컴퓨팅

상업용 컴퓨팅 (비디오, 그래픽, 데이터베이스, OLTP 등)에서도 지정된 시간 내에 방대한 양의 데이터를 처리하려면 고속 컴퓨터가 필요합니다. Desktop은 거의 병렬 프로그램과 유사한 다중 스레드 프로그램을 사용합니다. 이것은 차례로 병렬 아키텍처 개발을 요구합니다.

기술 동향

기술과 아키텍처의 발전과 함께 고성능 응용 프로그램 개발에 대한 수요가 매우 높습니다. 실험에 따르면 병렬 컴퓨터는 최고로 개발 된 단일 프로세서보다 훨씬 빠르게 작동 할 수 있습니다. 또한 기술과 비용의 한계 내에서 병렬 컴퓨터를 개발할 수 있습니다.

여기서 사용되는 주요 기술은 VLSI 기술입니다. 따라서 오늘날 점점 더 많은 트랜지스터, 게이트 및 회로가 동일한 영역에 장착 될 수 있습니다. 기본 VLSI 기능 크기가 감소함에 따라 클럭 속도도 이에 비례하여 향상되고 트랜지스터 수는 정사각형으로 늘어납니다. 한 번에 많은 트랜지스터 (병렬)를 사용하면 클럭 속도를 높이는 것보다 훨씬 더 나은 성능을 얻을 수 있습니다

기술 동향에 따르면 기본 단일 칩 빌딩 블록은 점점 더 큰 용량을 제공 할 것입니다. 따라서 단일 칩에 여러 프로세서를 배치 할 가능성이 높아집니다.

건축 동향

기술의 발전은 실현 가능한 것을 결정합니다. 아키텍처는 기술의 잠재력을 성능과 기능으로 전환합니다.Parallelismlocality더 많은 양의 자원과 더 많은 트랜지스터가 성능을 향상시키는 두 가지 방법입니다. 그러나이 두 가지 방법은 동일한 리소스를두고 경쟁합니다. 여러 작업을 병렬로 실행하면 프로그램을 실행하는 데 필요한 사이클 수가 줄어 듭니다.

그러나 각 동시 활동을 지원하려면 리소스가 필요합니다. 로컬 스토리지를 할당하려면 리소스도 필요합니다. 리소스를 사용하여 병렬 처리 수준과 지역성을 활용하는 중간 작업 계획을 통해 최상의 성능을 얻을 수 있습니다.

일반적으로 컴퓨터 아키텍처의 역사는 다음과 같은 기본 기술을 가진 4 세대로 나뉩니다.

  • 진공관
  • Transistors
  • 집적 회로
  • VLSI

1985 년까지 기간은 비트 수준 병렬 처리의 증가에 의해 지배되었습니다. 4 비트 마이크로 프로세서 뒤에 8 비트, 16 비트 등이 있습니다. 전체 32 비트 작업을 수행하는 데 필요한 사이클 수를 줄이기 위해 데이터 경로의 너비가 두 배가되었습니다. 나중에 64 비트 작업이 도입되었습니다.

성장 instruction-level-parallelism80 년대 중반에서 90 년대 중반을 지배했습니다. RISC 접근 방식은 명령 처리 단계를 파이프 라인으로 연결하는 것이 간단하여 평균적으로 거의 모든 사이클에서 명령이 실행된다는 것을 보여주었습니다. 컴파일러 기술의 성장으로 명령 파이프 라인의 생산성이 향상되었습니다.

80 년대 중반 마이크로 프로세서 기반 컴퓨터는

  • 정수 처리 장치
  • 부동 소수점 단위
  • 캐시 컨트롤러
  • 캐시 데이터 용 SRAM
  • 태그 저장

칩 용량이 증가함에 따라 이러한 모든 구성 요소가 단일 칩으로 통합되었습니다. 따라서 단일 칩은 정수 산술, 부동 소수점 연산, 메모리 연산 및 분기 연산을위한 별도의 하드웨어로 구성됩니다. 개별 명령어를 파이프 라이닝하는 것 외에 한 번에 여러 명령어를 가져와 가능한 한 서로 다른 기능 단위로 병렬로 보냅니다. 이러한 유형의 명령어 수준 병렬 처리를superscalar execution.

병렬 머신은 몇 가지 고유 한 아키텍처로 개발되었습니다. 이 섹션에서는 다양한 병렬 컴퓨터 아키텍처와 수렴의 특성에 대해 설명합니다.

통신 아키텍처

병렬 아키텍처는 통신 아키텍처로 컴퓨터 아키텍처의 기존 개념을 향상시킵니다. 컴퓨터 아키텍처는 사용자 시스템 경계 및 하드웨어 소프트웨어 경계와 같은 중요한 추상화와 조직 구조를 정의하는 반면 통신 아키텍처는 기본 통신 및 동기화 작업을 정의합니다. 또한 조직 구조를 다룹니다.

프로그래밍 모델은 최상위 계층입니다. 응용 프로그램은 프로그래밍 모델로 작성됩니다. 병렬 프로그래밍 모델에는 다음이 포함됩니다.

  • 공유 주소 공간
  • 메시지 전달
  • 데이터 병렬 프로그래밍

Shared address프로그래밍은 다른 모든 개인이 공유하는 특정 위치에 정보를 게시하여 한 명 또는 여러 개인과 통신 할 수있는 게시판을 사용하는 것과 같습니다. 개인 활동은 누가 어떤 작업을하고 있는지 확인하여 조정됩니다.

Message passing 특정 수신자가 특정 발신자로부터 정보를받는 전화 또는 편지와 같습니다.

Data parallel프로그래밍은 조직화 된 형태의 협력입니다. 여기에서 여러 개인이 데이터 세트의 개별 요소에 대해 동시에 작업을 수행하고 전 세계적으로 정보를 공유합니다.

공유 메모리

공유 메모리 멀티 프로세서는 병렬 시스템의 가장 중요한 클래스 중 하나입니다. 다중 프로그래밍 워크로드에서 더 나은 처리량을 제공하고 병렬 프로그램을 지원합니다.

이 경우 모든 컴퓨터 시스템은 프로세서와 I / O 컨트롤러 세트가 일부 하드웨어 상호 연결을 통해 메모리 모듈 모음에 액세스 할 수 있도록합니다. 메모리 모듈을 추가하면 메모리 용량이 늘어나고 I / O 컨트롤러에 장치를 추가하거나 I / O 컨트롤러를 추가하면 I / O 용량이 늘어납니다. 더 빠른 프로세서를 사용할 수있을 때까지 기다리거나 더 많은 프로세서를 추가하여 처리 용량을 늘릴 수 있습니다.

모든 리소스는 중앙 메모리 버스를 중심으로 구성됩니다. 버스 액세스 메커니즘을 통해 모든 프로세서는 시스템의 모든 물리적 주소에 액세스 할 수 있습니다. 모든 프로세서가 모든 메모리 위치에서 등거리에 있기 때문에 모든 프로세서의 액세스 시간 또는 대기 시간이 메모리 위치에서 동일합니다. 이것은 ... 불리운다symmetric multiprocessor.

메시지 전달 아키텍처

메시지 전달 아키텍처는 병렬 시스템의 중요한 클래스이기도합니다. 명시 적 I / O 작업으로 프로세서 간의 통신을 제공합니다. 이 경우 통신은 메모리 시스템 대신 I / O 레벨에서 결합됩니다.

메시지 전달 아키텍처에서 실제 통신 작업을 포함하여 많은 하위 수준 작업을 수행하는 운영 체제 또는 라이브러리 호출을 사용하여 실행되는 사용자 통신입니다. 결과적으로 프로그래밍 모델과 물리적 하드웨어 수준의 통신 작업간에 거리가 있습니다.

Sendreceive메시지 전달 시스템에서 가장 일반적인 사용자 수준의 통신 작업입니다. Send는 로컬 데이터 버퍼 (전송 될)와 수신 원격 프로세서를 지정합니다. 수신은 전송 된 데이터가 배치 될 전송 프로세스 및 로컬 데이터 버퍼를 지정합니다. 보내기 작업에서identifier 또는 tag 메시지에 첨부되고 수신 작업은 특정 프로세서의 특정 태그 또는 모든 프로세서의 태그와 같은 일치 규칙을 지정합니다.

송신 및 일치 수신의 조합은 메모리 대 메모리 복사를 완료합니다. 각 끝은 로컬 데이터 주소와 쌍별 동기화 이벤트를 지정합니다.

수렴

하드웨어와 소프트웨어의 개발로 인해 공유 메모리와 메시지 전달 캠프 사이의 명확한 경계가 사라졌습니다. 메시지 전달과 공유 주소 공간은 두 가지 프로그래밍 모델을 나타냅니다. 각각은 공유, 동기화 및 커뮤니케이션에 대한 투명한 패러다임을 제공합니다. 그러나 기본 기계 구조는 공통 조직으로 수렴되었습니다.

데이터 병렬 처리

병렬 머신의 또 다른 중요한 클래스는 프로세서 어레이, 데이터 병렬 아키텍처 및 단일 명령어 다중 데이터 머신으로 다양하게 불립니다. 프로그래밍 모델의 주요 기능은 대규모 일반 데이터 구조 (예 : 배열 또는 행렬)의 각 요소에서 병렬로 연산을 실행할 수 있다는 것입니다.

데이터 병렬 프로그래밍 언어는 일반적으로 명시적인 전역 공간을 형성하는 프로세서 당 하나씩 프로세스 그룹의 로컬 주소 공간을 확인하여 적용됩니다. 모든 프로세서가 함께 통신하고 모든 작업에 대한 전역보기가 있으므로 공유 주소 공간 또는 메시지 전달을 사용할 수 있습니다.

기본 디자인 문제

프로그래밍 모델의 개발은 컴퓨터의 효율성을 높일 수 없으며 하드웨어 개발만으로는 불가능합니다. 그러나 컴퓨터 아키텍처의 개발은 컴퓨터의 성능에 차이를 만들 수 있습니다. 우리는 프로그램이 기계를 사용하는 방법과 제공되는 기본 기술에 초점을 맞추어 설계 문제를 이해할 수 있습니다.

이 섹션에서는 통신 추상화와 프로그래밍 모델의 기본 요구 사항에 대해 설명합니다.

통신 추상화

통신 추상화는 프로그래밍 모델과 시스템 구현 간의 주요 인터페이스입니다. 동일한 프로그램이 여러 구현에서 올바르게 실행될 수 있도록 플랫폼을 제공하는 명령어 세트와 같습니다. 이 수준의 작업은 간단해야합니다.

통신 추상화는 하드웨어와 소프트웨어 간의 계약과 같으므로 작업에 영향을주지 않고 서로 유연성을 향상시킬 수 있습니다.

프로그래밍 모델 요구 사항

병렬 프로그램에는 데이터에서 작동하는 하나 이상의 스레드가 있습니다. 병렬 프로그래밍 모델은 스레드가 할 수있는 데이터를 정의합니다.name, 어느 operations 명명 된 데이터에 대해 수행 할 수 있으며 작업이 뒤 따르는 순서입니다.

프로그램 간의 종속성이 적용되는지 확인하려면 병렬 프로그램이 해당 스레드의 활동을 조정해야합니다.

병렬 처리는 실제 응용 프로그램에서 더 높은 성능, 더 낮은 비용 및 정확한 결과에 대한 요구를 충족하기 위해 현대 컴퓨터에서 효과적인 기술로 개발되었습니다. 동시 이벤트는 다중 프로그래밍, 다중 처리 또는 다중 컴퓨팅의 관행으로 인해 오늘날의 컴퓨터에서 일반적입니다.

최신 컴퓨터에는 강력하고 광범위한 소프트웨어 패키지가 있습니다. 컴퓨터 성능의 발전을 분석하려면 먼저 하드웨어와 소프트웨어의 기본적인 발전을 이해해야합니다.

  • Computer Development Milestones − 컴퓨터 개발에는 크게 두 단계가 있습니다. mechanical 또는 electromechanical부속. 현대 컴퓨터는 전자 부품이 도입 된 후 진화했습니다. 전자 컴퓨터의 높은 이동성 전자가 기계 컴퓨터의 작동 부품을 대체했습니다. 정보 전송의 경우 거의 빛의 속도로 이동하는 전기 신호가 기계식 기어 또는 레버를 대체했습니다.

  • Elements of Modern computers − 최신 컴퓨터 시스템은 컴퓨터 하드웨어, 명령어 세트, 응용 프로그램, 시스템 소프트웨어 및 사용자 인터페이스로 구성됩니다.

컴퓨팅 문제는 수치 컴퓨팅, 논리적 추론 및 트랜잭션 처리로 분류됩니다. 일부 복잡한 문제는 세 가지 처리 모드를 모두 조합해야 할 수 있습니다.

  • Evolution of Computer Architecture− 지난 40 년 동안 컴퓨터 아키텍처는 혁신적인 변화를 겪었습니다. 우리는 Von Neumann 아키텍처로 시작했고 이제는 다중 컴퓨터와 다중 프로세서가 있습니다.

  • Performance of a computer system− 컴퓨터 시스템의 성능은 기계 성능과 프로그램 동작에 따라 다릅니다. 더 나은 하드웨어 기술, 고급 아키텍처 기능 및 효율적인 리소스 관리를 통해 기계 기능을 향상시킬 수 있습니다. 프로그램 동작은 응용 프로그램 및 런타임 조건에 따라 달라 지므로 예측할 수 없습니다.

다중 프로세서 및 다중 컴퓨터

이 섹션에서는 두 가지 유형의 병렬 컴퓨터에 대해 설명합니다.

  • Multiprocessors
  • Multicomputers

공유 메모리 다중 컴퓨터

가장 일반적인 세 ​​가지 공유 메모리 다중 프로세서 모델은 다음과 같습니다.

UMA (Uniform Memory Access)

이 모델에서 모든 프로세서는 물리적 메모리를 균일하게 공유합니다. 모든 프로세서는 모든 메모리 단어에 대해 동일한 액세스 시간을 갖습니다. 각 프로세서에는 개인 캐시 메모리가있을 수 있습니다. 주변 장치에도 동일한 규칙이 적용됩니다.

모든 프로세서가 모든 주변 장치에 동등하게 액세스 할 수있는 경우 시스템을 symmetric multiprocessor. 하나 또는 몇 개의 프로세서 만 주변 장치에 액세스 할 수있는 경우 시스템을asymmetric multiprocessor.

NUMA (Non-Uniform Memory Access)

NUMA 멀티 프로세서 모델에서 액세스 시간은 메모리 워드의 위치에 따라 다릅니다. 여기서 공유 메모리는 로컬 메모리라고하는 모든 프로세서에 물리적으로 분산됩니다. 모든 로컬 메모리 모음은 모든 프로세서에서 액세스 할 수있는 전역 주소 공간을 형성합니다.

캐시 전용 메모리 아키텍처 (COMA)

COMA 모델은 NUMA 모델의 특별한 경우입니다. 여기에서 모든 분산 된 메인 메모리는 캐시 메모리로 변환됩니다.

  • Distributed - Memory Multicomputers− 분산 메모리 다중 컴퓨터 시스템은 메시지 전달 네트워크에 의해 상호 연결된 노드라고하는 여러 컴퓨터로 구성됩니다. 각 노드는 프로세서, 로컬 메모리 및 때때로 I / O 장치가있는 자율 컴퓨터로 작동합니다. 이 경우 모든 로컬 메모리는 비공개이며 로컬 프로세서 만 액세스 할 수 있습니다. 이것이 전통적인 기계가no-remote-memory-access (NORMA) 기계.

다중 벡터 및 SIMD 컴퓨터

이 섹션에서는 벡터 처리 및 데이터 병렬 처리를위한 슈퍼 컴퓨터 및 병렬 프로세서에 대해 설명합니다.

벡터 슈퍼 컴퓨터

벡터 컴퓨터에서 벡터 프로세서는 옵션 기능으로 스칼라 프로세서에 연결됩니다. 호스트 컴퓨터는 먼저 프로그램과 데이터를 주 메모리에로드합니다. 그런 다음 스칼라 제어 장치는 모든 명령을 디코딩합니다. 디코딩 된 명령어가 스칼라 연산 또는 프로그램 연산 인 경우 스칼라 프로세서는 스칼라 함수 파이프 라인을 사용하여 해당 연산을 실행합니다.

반면에, 디코딩 된 명령어가 벡터 연산 인 경우 명령어는 벡터 제어 장치로 전송됩니다.

SIMD 슈퍼 컴퓨터

SIMD 컴퓨터에서 'N'개의 프로세서가 제어 장치에 연결되고 모든 프로세서에는 개별 메모리 장치가 있습니다. 모든 프로세서는 상호 연결 네트워크로 연결됩니다.

PRAM 및 VLSI 모델

이상적인 모델은 물리적 제약이나 구현 세부 사항을 고려하지 않고 병렬 알고리즘을 개발하는 데 적합한 프레임 워크를 제공합니다.

이 모델은 병렬 컴퓨터에서 이론적 인 성능 한계를 얻거나 칩이 제조되기 전 칩 영역 및 작동 시간에 대한 VLSI 복잡성을 평가하기 위해 시행 될 수 있습니다.

병렬 랜덤 액세스 머신

Sheperdson과 Sturgis (1963)는 기존의 Uniprocessor 컴퓨터를 RAM (random-access-machines)으로 모델링했습니다. Fortune과 Wyllie (1978)는 메모리 액세스 오버 헤드와 동기화가없는 이상화 된 병렬 컴퓨터를 모델링하기 위해 병렬 랜덤 액세스 머신 (PRAM) 모델을 개발했습니다.

N 프로세서 PRAM에는 공유 메모리 장치가 있습니다. 이 공유 메모리는 중앙 집중화되거나 프로세서간에 분산 될 수 있습니다. 이러한 프로세서는 동기화 된 읽기 메모리, 쓰기 메모리 및 컴퓨팅주기에서 작동합니다. 따라서 이러한 모델은 동시 읽기 및 쓰기 작업이 처리되는 방식을 지정합니다.

다음은 가능한 메모리 업데이트 작업입니다.

  • Exclusive read (ER) −이 방법에서는 각주기에서 하나의 프로세서 만 모든 메모리 위치에서 읽을 수 있습니다.

  • Exclusive write (EW) −이 방법에서는 한 번에 하나 이상의 프로세서가 메모리 위치에 쓸 수 있습니다.

  • Concurrent read (CR) − 여러 프로세서가 동일한주기에서 동일한 메모리 위치에서 동일한 정보를 읽을 수 있습니다.

  • Concurrent write (CW)− 동일한 메모리 위치에 동시 쓰기 작업이 가능합니다. 쓰기 충돌을 방지하기 위해 일부 정책이 설정됩니다.

VLSI 복잡성 모델

병렬 컴퓨터는 VLSI 칩을 사용하여 프로세서 어레이, 메모리 어레이 및 대규모 스위칭 네트워크를 제작합니다.

오늘날 VLSI 기술은 2 차원입니다. VLSI 칩의 크기는 해당 칩에서 사용할 수있는 스토리지 (메모리) 공간의 양에 비례합니다.

알고리즘의 VLSI 칩 구현의 칩 영역 (A)으로 알고리즘의 공간 복잡도를 계산할 수 있습니다. T가 알고리즘을 실행하는 데 필요한 시간 (대기 시간)이면 AT는 칩 (또는 I / O)을 통해 처리되는 총 비트 수에 대한 상한을 제공합니다. 특정 컴퓨팅의 경우 하한 f (s)가 있습니다.

AT 2 > = O (f (s))

A = 칩 면적, T = 시간

건축 개발 트랙

병렬 컴퓨터의 진화는 다음 경로를 따라 퍼졌습니다.

  • 다중 프로세서 트랙
    • 다중 프로세서 트랙
    • 다중 컴퓨터 트랙
  • 다중 데이터 트랙
    • 벡터 트랙
    • SIMD 트랙
  • 다중 스레드 추적
    • 다중 스레드 트랙
    • Dataflow 트랙

    multiple processor track, 서로 다른 스레드가 서로 다른 프로세서에서 동시에 실행되고 공유 메모리 (다중 프로세서 트랙) 또는 메시지 전달 (다중 컴퓨터 트랙) 시스템을 통해 통신한다고 가정합니다.

    multiple data track, 방대한 양의 데이터에 대해 동일한 코드가 실행된다고 가정합니다. 데이터 요소 시퀀스 (벡터 트랙)에 대해 동일한 명령을 실행하거나 유사한 데이터 집합 (SIMD 트랙)에 대해 동일한 명령 시퀀스를 실행하여 수행됩니다.

    multiple threads track, 서로 다른 프로세서에서 실행되는 스레드 간의 동기화 지연을 숨기기 위해 동일한 프로세서에서 다양한 스레드의 인터리빙 실행을 가정합니다. 스레드 인터리빙은 거칠거나 (다중 스레드 트랙) 미세 (데이터 흐름 트랙) 일 수 있습니다.

    80 년대에는 특수 목적 프로세서가 다중 컴퓨터를 만드는 데 널리 사용되었습니다. Transputer. 트랜스 퓨터는 하나의 칩에 하나의 코어 프로세서, 소형 SRAM 메모리, DRAM 메인 메모리 인터페이스 및 4 개의 통신 채널로 구성되었습니다. 병렬 컴퓨터 통신을 만들기 위해 채널이 연결되어 Transputer 네트워크를 형성했습니다. 그러나 계산 능력이 부족하여 증가하는 병렬 애플리케이션의 수요를 충족 할 수 없습니다. 이 문제는 RISC 프로세서의 개발로 해결되었으며 가격도 저렴했습니다.

    현대 병렬 컴퓨터는 명령어 수준 병렬 처리 및 데이터 수준 병렬 처리와 같은 여러 수준에서 병렬 처리를 사용하는 마이크로 프로세서를 사용합니다.

    고성능 프로세서

    RISC 및 RISCy 프로세서는 오늘날의 병렬 컴퓨터 시장을 지배합니다.

    기존 RISC의 특성은 다음과 같습니다.

    • 주소 지정 모드가 거의 없습니다.
    • 명령에 대한 고정 형식 (일반적으로 32 비트 또는 64 비트)이 있습니다.
    • 메모리에서 레지스터로 데이터를로드하고 레지스터에서 메모리로 데이터를 저장하는 전용로드 / 저장 명령이 있습니다.
    • 산술 연산은 항상 레지스터에서 수행됩니다.
    • 파이프 라이닝을 사용합니다.

    오늘날 대부분의 마이크로 프로세서는 수퍼 스칼라입니다. 즉, 병렬 컴퓨터에서 다중 명령 파이프 라인이 사용됩니다. 따라서 슈퍼 스칼라 프로세서는 동시에 둘 이상의 명령어를 실행할 수 있습니다. 슈퍼 스칼라 프로세서의 효율성은 응용 프로그램에서 사용할 수있는 ILP (명령 수준 병렬 처리)의 양에 따라 다릅니다. 파이프 라인을 채운 상태로 유지하기 위해 하드웨어 수준의 명령어는 프로그램 순서와 다른 순서로 실행됩니다.

    많은 최신 마이크로 프로세서는 슈퍼 파이프 라이닝 방식을 사용합니다. 수퍼 파이프 라이닝 에서는 클럭 주파수를 높이기 위해 파이프 라인 단계 내에서 수행되는 작업이 줄어들고 파이프 라인 단계 수가 증가합니다.

    VLIW (Very Large Instruction Word) 프로세서

    이들은 수평 마이크로 프로그래밍 및 수퍼 스칼라 처리에서 파생됩니다. VLIW 프로세서의 지침은 매우 큽니다. 단일 명령어 내의 작업은 병렬로 실행되고 실행을 위해 적절한 기능 단위로 전달됩니다. 따라서 VLIW 명령어를 가져온 후 해당 작업이 디코딩됩니다. 그런 다음 작업이 병렬로 실행되는 기능 단위로 발송됩니다.

    벡터 프로세서

    벡터 프로세서는 범용 마이크로 프로세서에 대한 보조 프로세서입니다. 벡터 프로세서는 일반적으로 레지스터 레지스터 또는 메모리 메모리입니다. 벡터 명령어를 가져 와서 디코딩 한 다음 피연산자 벡터의 각 요소에 대해 특정 연산이 수행되는 반면, 일반 프로세서에서는 벡터 연산이 코드의 루프 구조를 필요로합니다. 더 효율적으로 만들기 위해 벡터 프로세서는 여러 벡터 연산을 함께 연결합니다. 즉, 한 벡터 연산의 결과가 피연산자로 다른 연산으로 전달됩니다.

    캐싱

    캐시는 고성능 마이크로 프로세서의 중요한 요소입니다. 18 개월마다 마이크로 프로세서의 속도는 두 배가되지만 메인 메모리 용 DRAM 칩은이 속도와 경쟁 할 수 없습니다. 따라서 프로세서와 메모리 간의 속도 차이를 줄이기 위해 캐시가 도입되었습니다. 캐시는 빠르고 작은 SRAM 메모리입니다. TLB (Translation Look-aside Buffer) 캐시, 명령 및 데이터 캐시 등과 같은 최신 프로세서에는 더 많은 캐시가 적용됩니다.

    직접 매핑 된 캐시

    직접 매핑 된 캐시에서 '모듈로'기능은 주 메모리의 주소를 캐시 위치에 일대일로 매핑하는 데 사용됩니다. 동일한 캐시 항목에 여러 개의 주 메모리 블록이 매핑 될 수 있으므로 프로세서는 캐시의 데이터 블록이 실제로 필요한 데이터 블록인지 여부를 결정할 수 있어야합니다. 이 식별은 캐시 블록과 함께 태그를 저장하여 수행됩니다.

    완전 연관 캐시

    완전 연관 매핑을 사용하면 캐시의 어느 위치 에나 캐시 블록을 배치 할 수 있습니다. 일부 대체 정책을 사용하여 캐시는 캐시 블록을 저장하는 캐시 항목을 결정합니다. 완전 연관 캐시에는 유연한 매핑이있어 캐시 항목 충돌 수를 최소화합니다. 완전 연관 구현은 비용이 많이 들기 때문에 대규모로 사용되지 않습니다.

    집합 연관 캐시

    집합 연관 매핑은 직접 매핑과 완전 연관 매핑의 조합입니다. 이 경우 캐시 항목은 캐시 세트로 세분됩니다. 직접 매핑에서와 마찬가지로 캐시의 집합에 대한 메모리 블록 매핑이 고정되어 있습니다. 그러나 캐시 세트 내에서 메모리 블록은 완전히 연관되는 방식으로 매핑됩니다.

    캐시 전략

    매핑 메커니즘 외에도 캐시에는 특정 이벤트의 경우 발생해야하는 작업을 지정하는 다양한 전략이 필요합니다. (set-) 연관 캐시의 경우 캐시는 캐시에 들어가는 새 블록으로 대체 될 캐시 블록을 결정해야합니다.

    잘 알려진 대체 전략은 다음과 같습니다.

    • 선입 선출 (FIFO)
    • LRU (최소 최근 사용)

    이 장에서는 다중 프로세서와 다중 컴퓨터에 대해 설명합니다.

    다중 프로세서 시스템 상호 연결

    병렬 처리는 입출력과 주변 장치, 멀티 프로세서 및 공유 메모리 간의 빠른 통신을 위해 효율적인 시스템 상호 연결을 사용해야합니다.

    계층 적 버스 시스템

    계층 적 버스 시스템은 컴퓨터의 다양한 시스템 및 하위 시스템 / 구성 요소를 연결하는 버스 계층 구조로 구성됩니다. 각 버스는 여러 신호, 제어 및 전력선으로 구성됩니다. 로컬 버스, 백플레인 버스 및 I / O 버스와 같은 다른 버스는 서로 다른 상호 연결 기능을 수행하는 데 사용됩니다.

    로컬 버스는 인쇄 회로 기판에 구현 된 버스입니다. 백플레인 버스는 기능 보드를 연결하는 데 많은 커넥터가 사용되는 인쇄 회로입니다. 입력 / 출력 장치를 컴퓨터 시스템에 연결하는 버스를 I / O 버스라고합니다.

    크로스바 스위치 및 멀티 포트 메모리

    스위칭 네트워크는 입력과 출력 사이에 동적 상호 연결을 제공합니다. 중소 규모 시스템은 대부분 크로스바 네트워크를 사용합니다. 지연 시간 증가 문제를 해결할 수 있다면 다단계 네트워크를 더 큰 시스템으로 확장 할 수 있습니다.

    크로스바 스위치와 멀티 포트 메모리 구성은 모두 단일 단계 네트워크입니다. 단일 단계 네트워크는 구축 비용이 더 저렴하지만 특정 연결을 설정하려면 여러 패스가 필요할 수 있습니다. 다단계 네트워크에는 여러 단계의 스위치 박스가 있습니다. 이러한 네트워크는 모든 입력을 모든 출력에 연결할 수 있어야합니다.

    다단계 및 결합 네트워크

    다단계 네트워크 또는 다단계 상호 연결 네트워크는 주로 네트워크 한쪽 끝의 처리 요소와 다른 쪽 끝의 메모리 요소로 구성되며 스위칭 요소로 연결된 고속 컴퓨터 네트워크의 한 종류입니다.

    이러한 네트워크는 더 큰 다중 프로세서 시스템을 구축하는 데 적용됩니다. 여기에는 Omega Network, Butterfly Network 등이 포함됩니다.

    다중 컴퓨터

    다중 컴퓨터는 분산 메모리 MIMD 아키텍처입니다. 다음 다이어그램은 다중 컴퓨터의 개념적 모델을 보여줍니다.

    다중 컴퓨터는 패킷 교환 방식을 적용하여 데이터를 교환하는 메시지 전달 기계입니다. 여기에서 각 프로세서에는 개인 메모리가 있지만 프로세서가 자체 로컬 메모리에만 액세스 할 수 있으므로 전역 주소 공간이 없습니다. 따라서 통신은 투명하지 않습니다. 여기서 프로그래머는 통신 기본 요소를 코드에 명시 적으로 넣어야합니다.

    전역 적으로 액세스 할 수있는 메모리가 없다는 것은 다중 컴퓨터의 단점입니다. 이것은 다음 두 가지 방식을 사용하여 해결할 수 있습니다.

    • 가상 공유 메모리 (VSM)
    • 공유 가상 메모리 (SVM)

    이러한 체계에서 응용 프로그램 프로그래머는 전역 적으로 주소 지정이 가능한 큰 공유 메모리를 가정합니다. 필요한 경우 응용 프로그램에서 만든 메모리 참조는 메시지 전달 패러다임으로 변환됩니다.

    가상 공유 메모리 (VSM)

    VSM은 하드웨어 구현입니다. 따라서 운영 체제의 가상 메모리 시스템은 VSM 위에 투명하게 구현됩니다. 따라서 운영 체제는 공유 메모리가있는 시스템에서 실행되고 있다고 생각합니다.

    공유 가상 메모리 (SVM)

    SVM은 프로세서의 MMU (Memory Management Unit)에서 하드웨어를 지원하는 운영 체제 수준의 소프트웨어 구현입니다. 여기서 공유 단위는 운영 체제 메모리 페이지입니다.

    프로세서가 특정 메모리 위치를 지정하면 MMU는 메모리 액세스와 관련된 메모리 페이지가 로컬 메모리에 있는지 여부를 결정합니다. 페이지가 메모리에 없으면 일반 컴퓨터 시스템에서는 운영 체제에 의해 디스크에서 스왑됩니다. 그러나 SVM에서 운영 체제는 특정 페이지를 소유 한 원격 노드에서 페이지를 가져옵니다.

    3 세대 멀티 컴퓨터

    이 섹션에서는 3 세대 다중 컴퓨터에 대해 설명합니다.

    과거의 디자인 선택

    프로세서 기술을 선택하는 동안 다중 컴퓨터 설계자는 저비용 중형 프로세서를 빌딩 블록으로 선택합니다. 대부분의 병렬 컴퓨터는 표준 기성 마이크로 프로세서로 구축됩니다. 확장 성을 제한하는 공유 메모리를 사용하지 않고 다중 컴퓨터에 분산 메모리를 선택했습니다. 각 프로세서에는 자체 로컬 메모리 장치가 있습니다.

    상호 연결 체계의 경우 다중 컴퓨터에는 주소 스위칭 네트워크가 아닌 메시지 전달, 지점 간 직접 네트워크가 있습니다. 제어 전략을 위해 다중 컴퓨터 설계자는 비동기 MIMD, MPMD 및 SMPD 작업을 선택합니다. Caltech의 Cosmic Cube (Seitz, 1983)는 1 세대 다중 컴퓨터 중 최초입니다.

    현재와 ​​미래의 개발

    차세대 컴퓨터는 전 세계적으로 공유되는 가상 메모리를 사용하여 중간 크기에서 미세 입자로 진화했습니다. 2 세대 다중 컴퓨터는 현재 여전히 사용되고 있습니다. 그러나 i386, i860 등과 같은 더 나은 프로세서를 사용하여 2 세대 컴퓨터가 많이 개발되었습니다.

    3 세대 컴퓨터는 VLSI 구현 노드가 사용되는 차세대 컴퓨터입니다. 각 노드는 단일 칩에 통합 된 14-MIPS 프로세서, 20-Mbytes / s 라우팅 채널 및 16KB의 RAM을 가질 수 있습니다.

    Intel Paragon 시스템

    이전에는 모든 기능이 호스트에 주어 졌기 때문에 하이퍼 큐브 다중 컴퓨터를 만드는 데 동종 노드가 사용되었습니다. 따라서 이것은 I / O 대역폭을 제한했습니다. 따라서 대규모 문제를 효율적으로 또는 높은 처리량으로 해결하기 위해 이러한 컴퓨터를 사용할 수 없었습니다. Intel Paragon System은 이러한 어려움을 극복하도록 설계되었습니다. 네트워크 환경에서 다중 사용자 액세스가 가능한 애플리케이션 서버로 다중 컴퓨터를 전환했습니다.

    메시지 전달 메커니즘

    다중 컴퓨터 네트워크의 메시지 전달 메커니즘에는 특별한 하드웨어 및 소프트웨어 지원이 필요합니다. 이 섹션에서는 몇 가지 체계에 대해 설명합니다.

    메시지 라우팅 체계

    저장 및 전달 라우팅 방식을 사용하는 다중 컴퓨터에서 패킷은 정보 전송의 가장 작은 단위입니다. 웜홀 라우팅 네트워크에서 패킷은 플릿으로 더 나뉩니다. 패킷 길이는 라우팅 체계와 네트워크 구현에 의해 결정되는 반면 플리트 길이는 네트워크 크기의 영향을받습니다.

    Store and forward routing, 패킷은 정보 전송의 기본 단위입니다. 이 경우 각 노드는 패킷 버퍼를 사용합니다. 패킷은 일련의 중간 노드를 통해 소스 노드에서 대상 노드로 전송됩니다. 지연 시간은 소스와 대상 사이의 거리에 정비례합니다.

    wormhole routing, 소스 노드에서 대상 노드로의 전송은 일련의 라우터를 통해 이루어집니다. 동일한 패킷의 모든 플릿은 파이프 라인 방식으로 분리 할 수없는 시퀀스로 전송됩니다. 이 경우 헤더 플리트 만이 패킷이 어디로 가는지 알고 있습니다.

    교착 상태 및 가상 채널

    가상 채널은 두 노드 사이의 논리적 링크입니다. 소스 노드와 리시버 노드의 플리트 버퍼와 그 사이의 물리적 채널로 구성됩니다. 물리적 채널이 쌍에 할당되면 하나의 소스 버퍼가 하나의 수신기 버퍼와 쌍을 이루어 가상 채널을 형성합니다.

    모든 채널이 메시지에 의해 점유되고주기의 채널이 해제되지 않으면 교착 상태가 발생합니다. 이를 방지하려면 교착 상태 방지 계획을 따라야합니다.

    이 장에서는 다중 캐시 불일치 문제에 대처하기위한 캐시 일관성 프로토콜에 대해 설명합니다.

    캐시 일관성 문제

    다중 프로세서 시스템에서 데이터 불일치는 인접한 레벨 사이에서 또는 동일한 레벨의 메모리 계층 내에서 발생할 수 있습니다. 예를 들어 캐시와 주 메모리에 동일한 개체의 일관성없는 복사본이있을 수 있습니다.

    여러 프로세서가 병렬로 작동하고 독립적으로 여러 캐시가 동일한 메모리 블록의 서로 다른 복사본을 가질 수 있으므로 cache coherence problem. Cache coherence schemes 캐시 된 각 데이터 블록에 대해 균일 한 상태를 유지하여이 문제를 방지 할 수 있습니다.

    X를 두 개의 프로세서 P1과 P2에서 참조한 공유 데이터의 요소라고합시다. 처음에는 X의 세 복사본이 일치합니다. 프로세서 P1이 새 데이터 X1을 캐시에 쓰는 경우write-through policy, 동일한 사본이 공유 메모리에 즉시 기록됩니다. 이 경우 캐시 메모리와 주 메모리간에 불일치가 발생합니다. 때write-back policy 사용되는 경우 캐시의 수정 된 데이터가 교체되거나 무효화 될 때 주 메모리가 업데이트됩니다.

    일반적으로 불일치 문제에는 세 가지 원인이 있습니다.

    • 쓰기 가능한 데이터 공유
    • 프로세스 마이그레이션
    • I / O 활동

    스누피 버스 프로토콜

    스누피 프로토콜은 버스 기반 메모리 시스템을 통해 캐시 메모리와 공유 메모리 간의 데이터 일관성을 달성합니다. Write-invalidatewrite-update 정책은 캐시 일관성을 유지하는 데 사용됩니다.

    이 경우 로컬 캐시 메모리와 공유 메모리에 데이터 요소 'X'의 일관된 복사본이있는 3 개의 프로세서 P1, P2 및 P3이 있습니다 (그림 -a). 프로세서 P1은 다음을 사용하여 캐시 메모리에 X1을 씁니다.write-invalidate protocol. 따라서 다른 모든 사본은 버스를 통해 무효화됩니다. 'I'로 표시됩니다 (그림 -b). 무효화 된 블록은 다음과 같이 알려져 있습니다.dirty즉, 사용해서는 안됩니다. 그만큼write-update protocol버스를 통해 모든 캐시 사본을 업데이트합니다. 사용하여write back cache, 메모리 사본도 업데이트됩니다 (그림 -c).

    캐시 이벤트 및 작업

    메모리 액세스 및 무효화 명령 실행시 다음 이벤트 및 작업이 발생합니다.

    • Read-miss− 프로세서가 블록을 읽으려고하는데 캐시에 없으면 read-miss가 발생합니다. 이것은bus-read조작. 더티 복사본이 없으면 일관된 복사본이있는 주 메모리가 요청하는 캐시 메모리에 복사본을 제공합니다. 원격 캐시 메모리에 더티 복사본이 있으면 해당 캐시는 주 메모리를 제한하고 요청하는 캐시 메모리로 복사본을 보냅니다. 두 경우 모두 캐시 사본은 읽기 누락 후 유효한 상태가됩니다.

    • Write-hit − 사본이 더럽거나 reserved상태, 쓰기는 로컬로 수행되고 새 상태는 더티입니다. 새 상태가 유효하면 write-invalidate 명령이 모든 캐시에 브로드 캐스트되어 복사본이 무효화됩니다. 공유 메모리가 쓰여질 때 결과 상태는 첫 번째 쓰기 후에 예약됩니다.

    • Write-miss− 프로세서가 로컬 캐시 메모리에 쓰기에 실패하면 복사본은 주 메모리 또는 더티 블록이있는 원격 캐시 메모리에서 가져와야합니다. 이것은read-invalidate모든 캐시 복사본을 무효화합니다. 그런 다음 로컬 복사본이 더티 상태로 업데이트됩니다.

    • Read-hit − Read-hit은 항상 상태 전환을 일으키거나 무효화를 위해 스누피 버스를 사용하지 않고 로컬 캐시 메모리에서 수행됩니다.

    • Block replacement− 복사본이 더러워지면 블록 교체 방식으로 메인 메모리에 다시 기록됩니다. 그러나 복사본이 유효하거나 예약되었거나 유효하지 않은 상태이면 대체가 수행되지 않습니다.

    디렉터리 기반 프로토콜

    수백 개의 프로세서가있는 대형 멀티 프로세서를 구축하기 위해 다단계 네트워크를 사용함으로써 스누피 캐시 프로토콜을 네트워크 기능에 맞게 수정해야합니다. 브로드 캐스팅은 다단계 네트워크에서 수행하는 데 매우 비용이 많이 들기 때문에 일관성 명령은 블록 사본을 보관하는 캐시에만 전송됩니다. 이것이 네트워크에 연결된 멀티 프로세서를위한 디렉토리 기반 프로토콜을 개발 한 이유입니다.

    디렉토리 기반 프로토콜 시스템에서 공유 할 데이터는 캐시 간의 일관성을 유지하는 공통 디렉토리에 배치됩니다. 여기서 디렉토리는 프로세서가 기본 메모리에서 캐시 메모리로 항목을로드 할 권한을 요청하는 필터 역할을합니다. 항목이 변경되면 디렉토리는 항목을 업데이트하거나 해당 항목이있는 다른 캐시를 무효화합니다.

    하드웨어 동기화 메커니즘

    동기화는 데이터 제어 대신 동일하거나 다른 프로세서에있는 통신 프로세스간에 정보가 교환되는 특수한 형태의 통신입니다.

    다중 프로세서 시스템은 하드웨어 메커니즘을 사용하여 저수준 동기화 작업을 구현합니다. 대부분의 다중 프로세서에는 일부 동기화 기본 요소를 구현하기 위해 메모리 읽기, 쓰기 또는 읽기-수정-쓰기 작업과 같은 원자 적 작업을 부과하는 하드웨어 메커니즘이 있습니다. 원자 메모리 작업 외에 일부 프로세서 간 인터럽트도 동기화 목적으로 사용됩니다.

    공유 메모리 시스템의 캐시 일관성

    프로세서에 로컬 캐시 메모리가 포함 된 경우 다중 프로세서 시스템에서 캐시 일관성을 유지하는 것은 문제입니다. 이 시스템에서는 서로 다른 캐시 간의 데이터 불일치가 쉽게 발생합니다.

    주요 관심 분야는-

    • 쓰기 가능한 데이터 공유
    • 프로세스 마이그레이션
    • I / O 활동

    쓰기 가능한 데이터 공유

    두 프로세서 (P1 및 P2)의 로컬 캐시에 동일한 데이터 요소 (X)가 있고 하나의 프로세스 (P1)가 데이터 요소 (X)에 기록하는 경우 캐시가 P1의 write-through 로컬 캐시이므로 주 메모리는 다음과 같습니다. 또한 업데이트되었습니다. 이제 P2가 데이터 요소 (X)를 읽으려고 할 때 P2 캐시의 데이터 요소가 오래 되었기 때문에 X를 찾지 못합니다.

    프로세스 마이그레이션

    첫 번째 단계에서 P1의 캐시에는 데이터 요소 X가 있지만 P2에는 아무것도 없습니다. P2의 프로세스는 먼저 X에 쓴 다음 P1로 마이그레이션합니다. 이제 프로세스는 데이터 요소 X 읽기를 시작하지만 프로세서 P1에 오래된 데이터가 있으므로 프로세스는 읽을 수 없습니다. 따라서 P1의 프로세스는 데이터 요소 X에 쓴 다음 P2로 마이그레이션합니다. 마이그레이션 후 P2의 프로세스는 데이터 요소 X를 읽기 시작하지만 주 메모리에서 오래된 버전의 X를 찾습니다.

    I / O 활동

    그림에 표시된 것처럼 I / O 장치는 2 프로세서 멀티 프로세서 아키텍처에서 버스에 추가됩니다. 처음에는 두 캐시 모두 데이터 요소 X를 포함합니다. I / O 장치가 새 요소 X를 수신하면 새 요소를 주 메모리에 직접 저장합니다. 이제 P1 또는 P2 (P1 가정)가 요소 X를 읽으려고 할 때 오래된 사본을 얻습니다. 따라서 P1은 요소 X에 씁니다. 이제 I / O 장치가 X를 전송하려고하면 오래된 복사본을 얻습니다.

    UMA (Uniform Memory Access)

    UMA (Uniform Memory Access) 아키텍처는 공유 메모리가 시스템의 모든 프로세서에 대해 동일 함을 의미합니다. (파일) 서버에 일반적으로 사용되는 UMA 시스템의 인기 클래스는 소위 SMP (Symmetric Multiprocessor)입니다. SMP에서 프로세서는 메모리, 디스크, 기타 I / O 장치 등과 같은 모든 시스템 리소스에 균일 한 방식으로 액세스 할 수 있습니다.

    NUMA (Non-Uniform Memory Access)

    NUMA 아키텍처에는 확장 가능한 메시지 전달 네트워크에 연결된 내부 간접 / 공유 네트워크가있는 여러 SMP 클러스터가 있습니다. 따라서 NUMA 아키텍처는 논리적으로 공유되는 물리적으로 분산 된 메모리 아키텍처입니다.

    NUMA 시스템에서 프로세서의 캐시 컨트롤러는 메모리 참조가 SMP 메모리에 대해 로컬인지 원격인지 여부를 결정합니다. 원격 메모리 액세스 수를 줄이기 위해 NUMA 아키텍처는 일반적으로 원격 데이터를 캐시 할 수있는 캐싱 프로세서를 적용합니다. 그러나 캐시가 관련되면 캐시 일관성을 유지해야합니다. 따라서 이러한 시스템을 CC-NUMA (Cache Coherent NUMA)라고도합니다.

    캐시 전용 메모리 아키텍처 (COMA)

    COMA 머신은 NUMA 머신과 유사하지만 COMA 머신의 주 메모리가 직접 매핑되거나 집합 연관 캐시로 작동한다는 유일한 차이점이 있습니다. 데이터 블록은 주소에 따라 DRAM 캐시의 위치로 해시됩니다. 원격으로 가져온 데이터는 실제로 로컬 메인 메모리에 저장됩니다. 또한 데이터 블록에는 고정 된 홈 위치가 없으므로 시스템 전체에서 자유롭게 이동할 수 있습니다.

    COMA 아키텍처는 대부분 계층 적 메시지 전달 네트워크를 가지고 있습니다. 이러한 트리의 스위치에는 하위 트리와 같은 데이터 요소가있는 디렉토리가 포함됩니다. 데이터에는 집 위치가 없으므로 명시 적으로 검색해야합니다. 즉, 원격 액세스에는 필요한 데이터에 대한 디렉토리를 검색하려면 트리의 스위치를 따라 순회해야합니다. 따라서 네트워크의 스위치가 동일한 데이터에 대해 하위 트리에서 여러 요청을 수신하면이를 스위치의 상위로 전송되는 단일 요청으로 결합합니다. 요청 된 데이터가 반환되면 스위치는 하위 트리 아래로 여러 복사본을 보냅니다.

COMA 대 CC-NUMA

다음은 COMA와 CC-NUMA의 차이점입니다.

  • COMA는 OS 없이도 데이터의 마이그레이션과 복제를 투명하게 지원하기 때문에 CC-NUMA보다 더 유연합니다.

  • COMA 머신은 비표준 메모리 관리 하드웨어가 필요하고 일관성 프로토콜을 구현하기가 더 어렵 기 때문에 비용이 많이 들고 구축이 복잡합니다.

  • COMA의 원격 액세스는 데이터를 찾기 위해 트리 네트워크를 통과해야하기 때문에 CC-NUMA의 원격 액세스보다 느린 경우가 많습니다.

하드웨어 비용을 줄이는 방법은 여러 가지가 있습니다. 한 가지 방법은 통신 지원 및 네트워크를 처리 노드에 덜 긴밀하게 통합하고 통신 대기 시간과 점유를 늘리는 것입니다.

또 다른 방법은 하드웨어가 아닌 소프트웨어에서 자동 복제 및 일관성을 제공하는 것입니다. 후자의 방법은 주 메모리에서 복제 및 일관성을 제공하고 다양한 단위로 실행할 수 있습니다. 이를 통해 노드 및 상호 연결에 기성품 부품을 사용할 수 있으므로 하드웨어 비용이 최소화됩니다. 이것은 프로그래머에게 좋은 성능을 달성하도록 압력을가합니다.

완화 된 메모리 일관성 모델

공유 주소 공간에 대한 메모리 일관성 모델은 동일하거나 다른 위치에서 메모리 작업이 서로에 대해 실행되는 것처럼 보이는 순서로 제약 조건을 정의합니다. 실제로 공유 주소 공간 명명 모델을 지원하는 모든 시스템 계층에는 프로그래머의 인터페이스, 사용자 시스템 인터페이스 및 하드웨어-소프트웨어 인터페이스를 포함하는 메모리 일관성 모델이 있어야합니다. 해당 계층과 상호 작용하는 소프트웨어는 자체 메모리 일관성 모델을 인식해야합니다.

시스템 사양

아키텍처의 시스템 사양은 메모리 작업의 순서와 순서를 지정하고이를 통해 실제로 얻을 수있는 성능의 양을 지정합니다.

다음은 프로그램 순서에서 완화를 사용하는 몇 가지 사양 모델입니다.

  • Relaxing the Write-to-Read Program Order−이 등급의 모델을 사용하면 하드웨어가 첫 번째 레벨 캐시 메모리에서 누락 된 쓰기 작업의 대기 시간을 억제 할 수 있습니다. 쓰기 미스가 쓰기 버퍼에 있고 다른 프로세서에 표시되지 않는 경우 프로세서는 캐시 메모리에서 적중 된 읽기를 완료하거나 캐시 메모리에서 누락 된 단일 읽기를 완료 할 수 있습니다.

  • Relaxing the Write-to-Read and Write-to-Write Program Orders− 쓰기가 다양한 위치에 대한 이전의 미해결 쓰기를 우회하도록 허용하면 메인 메모리를 업데이트하기 전에 쓰기 버퍼에 여러 쓰기를 병합 할 수 있습니다. 따라서 여러 쓰기 미스가 겹치게되고 순서에 맞지 않게 표시됩니다. 동기는 쓰기 대기 시간이 프로세서 중단 시간에 미치는 영향을 더욱 최소화하고 새 데이터 값을 다른 프로세서에 표시하여 프로세서 간의 통신 효율성을 높이는 것입니다.

  • Relaxing All Program Orders− 프로세스 내 데이터 및 제어 종속성을 제외하고는 기본적으로 프로그램 순서가 보장되지 않습니다. 따라서 장점은 여러 읽기 요청이 동시에 처리 될 수 있고 프로그램 순서에서 나중에 쓰기로 우회 할 수 있으며 순서가 맞지 않게 완료 할 수있어 읽기 대기 시간을 숨길 수 있다는 것입니다. 이러한 유형의 모델은 다른 메모리 참조에 대한 읽기 실패를 계속할 수있는 동적으로 예약 된 프로세서에 특히 유용합니다. 컴파일러 최적화에 의해 수행되는 액세스의 제거까지도 많은 재정렬을 허용합니다.

프로그래밍 인터페이스

프로그래밍 인터페이스는 동기화 작업 사이에서 프로그램 순서를 전혀 유지할 필요가 없다고 가정합니다. 모든 동기화 작업은 명시 적으로 레이블이 지정되거나 식별됩니다. 런타임 라이브러리 또는 컴파일러는 이러한 동기화 작업을 시스템 사양에서 요구하는 적절한 순서 유지 작업으로 변환합니다.

그러면 시스템은 프로세스 내 위치에 대한 종속성을 방해하지 않고 원하는 방식으로 동기화 작업 간의 작업 순서를 변경할 수 있어도 순차적으로 일관된 실행을 보장합니다. 이를 통해 컴파일러는 원하는 재정렬을위한 동기화 지점간에 충분한 유연성을 제공 할 수 있으며 프로세서가 메모리 모델에서 허용하는만큼 재정렬을 수행 할 수 있습니다. 프로그래머의 인터페이스에서 일관성 모델은 적어도 하드웨어 인터페이스만큼 약해야하지만 동일 할 필요는 없습니다.

번역 메커니즘

대부분의 마이크로 프로세서에서 레이블을 유지 메커니즘을 주문하기 위해 번역하는 것은 동기화로 레이블이 지정된 각 작업 전후에 적절한 메모리 배리어 명령을 삽입하는 것과 같습니다. 추가 지침을 시행하고 방지 할 순서를 나타내는 개별로드 / 저장소와 함께 지침을 저장합니다. 그러나 작업은 일반적으로 드물기 때문에 지금까지 대부분의 마이크로 프로세서가 취한 방식은 아닙니다.

용량 제한 극복

우리는 프로세서 캐시 메모리에서만 하드웨어에서 자동 복제 및 일관성을 제공하는 시스템에 대해 설명했습니다. 프로세서 캐시는 로컬 주 메모리에 먼저 복제되지 않고 참조시 원격으로 할당 된 데이터를 직접 복제합니다.

이러한 시스템의 문제점은 로컬 복제 범위가 하드웨어 캐시로 제한된다는 것입니다. 블록이 캐시 메모리에서 교체되면 다시 필요할 때 원격 메모리에서 가져와야합니다. 이 섹션에서 설명하는 시스템의 주요 목적은 복제 용량 문제를 해결하는 것이지만 여전히 효율성을 위해 하드웨어 일관성과 캐시 블록의 세분화를 제공하는 것입니다.

3 차 캐시

복제 용량 문제를 해결하기위한 한 가지 방법은 크고 느린 원격 액세스 캐시를 사용하는 것입니다. 이는 기계의 노드 자체가 소규모 다중 프로세서이고 성능을 위해 더 크게 만들 수있는 기능을 위해 필요합니다. 또한 로컬 프로세서 캐시 메모리에서 교체 된 복제 된 원격 블록을 보유합니다.

캐시 전용 메모리 아키텍처 (COMA)

COMA 시스템에서 전체 주 메모리의 모든 메모리 블록에는 연결된 하드웨어 태그가 있습니다. 항상 메모리 블록에 할당 된 공간이 보장되는 고정 노드는 없습니다. 데이터는 데이터를 액세스 / 유인하는 노드의 주요 메모리로 동적으로 마이그레이션되거나 복제됩니다. 원격 블록에 액세스하면 어트랙션 메모리에 복제되어 캐시로 가져와 하드웨어에 의해 두 위치에서 일관성이 유지됩니다. 데이터 블록은 어트랙션 메모리에 상주 할 수 있으며 한 곳에서 다른 곳으로 쉽게 이동할 수 있습니다.

하드웨어 비용 절감

비용 절감은 특수 하드웨어의 일부 기능을 기존 하드웨어에서 실행되는 소프트웨어로 이동하는 것을 의미합니다. 소프트웨어가 하드웨어 캐시보다 주 메모리에서 복제 및 일관성을 관리하는 것이 훨씬 쉽습니다. 저비용 방법은 주 메모리에서 복제 및 일관성을 제공하는 경향이 있습니다. 일관성을 효율적으로 제어하기 위해 지원의 다른 기능 구성 요소 각각은 하드웨어 전문화 및 통합의 이점을 누릴 수 있습니다.

연구 노력은 특수 하드웨어에서 액세스 제어를 수행하고 소프트웨어 및 상용 하드웨어에 다른 활동을 할당하는 것과 같이 다양한 접근 방식으로 비용을 낮추는 것을 목표로합니다. 또 다른 접근 방식은 소프트웨어에서 액세스 제어를 수행하는 것이며, 특수 하드웨어 지원없이 상용 노드 및 네트워크에 일관된 공유 주소 공간 추상화를 할당하도록 설계되었습니다.

병렬 소프트웨어에 대한 의미

완화 된 메모리 일관성 모델은 병렬 프로그램이 원하는 충돌 액세스를 동기화 지점으로 표시해야합니다. 프로그래밍 언어는 일부 변수를 동기화로 레이블링하는 지원을 제공하며, 그런 다음 컴파일러에 의해 적절한 순서 유지 명령어로 변환됩니다. 컴파일러가 공유 메모리에 대한 액세스 순서를 변경하는 것을 제한하기 위해 컴파일러는 자체적으로 레이블을 사용할 수 있습니다.

interconnection network병렬 시스템에서 모든 소스 노드에서 원하는 대상 노드로 정보를 전송합니다. 이 작업은 가능한 한 짧은 대기 시간으로 완료해야합니다. 많은 수의 이러한 전송이 동시에 발생할 수 있어야합니다. 또한 나머지 기계의 비용에 비해 저렴해야합니다.

네트워크는 링크와 스위치로 구성되어 소스 노드에서 대상 노드로 정보를 보내는 데 도움이됩니다. 네트워크는 토폴로지, 라우팅 알고리즘, 스위칭 전략 및 흐름 제어 메커니즘에 의해 지정됩니다.

조직 구조

상호 연결 네트워크는 다음 세 가지 기본 구성 요소로 구성됩니다.

  • Links− 링크는 스위치 또는 네트워크 인터페이스 포트에 연결된 각 끝에 커넥터가있는 하나 이상의 광섬유 또는 전선으로 구성된 케이블입니다. 이를 통해 아날로그 신호가 한쪽 끝에서 전송되고 다른 쪽 끝에서 수신되어 원래의 디지털 정보 스트림을 얻습니다.

  • Switches− 스위치는 입력 및 출력 포트 세트, 모든 입력을 모든 출력에 연결하는 내부 "크로스바", 내부 버퍼링 및 각 시점에서 입력-출력 연결에 영향을주는 제어 로직으로 구성됩니다. 일반적으로 입력 포트의 수는 출력 포트의 수와 같습니다.

  • Network Interfaces− 네트워크 인터페이스는 스위치 노드와는 매우 다르게 작동하며 특수 링크를 통해 연결될 수 있습니다. 네트워크 인터페이스는 패킷 형식을 지정하고 라우팅 및 제어 정보를 구성합니다. 스위치에 비해 입력 및 출력 버퍼링이있을 수 있습니다. 종단 간 오류 검사 및 흐름 제어를 수행 할 수 있습니다. 따라서 비용은 처리 복잡성, 스토리지 용량 및 포트 수의 영향을받습니다.

상호 연결 네트워크

상호 연결 네트워크는 스위칭 요소로 구성됩니다. 토폴로지는 개별 스위치를 프로세서, 메모리 및 기타 스위치와 같은 다른 요소에 연결하는 패턴입니다. 네트워크를 통해 병렬 시스템의 프로세서간에 데이터를 교환 할 수 있습니다.

  • Direct connection networks− 직접 네트워크는 인접 노드 사이에 지점 간 연결이 있습니다. 이러한 네트워크는 정적이므로 지점 간 연결이 고정되어 있습니다. 직접 네트워크의 몇 가지 예는 링, 메시 및 큐브입니다.

  • Indirect connection networks− 간접 네트워크에는 고정 된 인접 네트워크가 없습니다. 통신 토폴로지는 애플리케이션 요구 사항에 따라 동적으로 변경 될 수 있습니다. 간접 네트워크는 버스 네트워크, 다단계 네트워크 및 크로스바 스위치의 세 부분으로 나눌 수 있습니다.

    • Bus networks− 버스 네트워크는 다수의 리소스가 연결된 다수의 비트 라인으로 구성됩니다. 버스가 데이터와 주소에 동일한 물리적 라인을 사용하면 데이터와 주소 라인이 시간 다중화됩니다. 버스에 여러 버스 마스터가 연결되어있는 경우 중재자가 필요합니다.

    • Multistage networks− 다단계 네트워크는 여러 단계의 스위치로 구성됩니다. 특정 단간 연결 패턴 (ISC)을 사용하여 연결된 'axb'스위치로 구성됩니다. 작은 2x2 스위치 요소는 많은 다단계 네트워크에서 일반적으로 선택됩니다. 단계 수에 따라 네트워크 지연이 결정됩니다. 다른 단계 간 연결 패턴을 선택하여 다양한 유형의 다단계 네트워크를 만들 수 있습니다.

    • Crossbar switches− 크로스바 스위치에는 연결을 생성하거나 끊기 위해 켜고 끌 수있는 간단한 스위치 요소 매트릭스가 포함되어 있습니다. 매트릭스의 스위치 요소를 켜면 프로세서와 메모리가 연결될 수 있습니다. 크로스바 스위치는 차단되지 않습니다. 즉, 모든 통신 순열이 차단없이 수행 될 수 있습니다.

네트워크 토폴로지에서 디자인 트레이드 오프 평가

주요 관심사가 라우팅 거리 인 경우 치수를 최대화하고 하이퍼 큐브를 만들어야합니다. 저장 후 전달 라우팅에서 스위치의 정도와 링크의 수는 중요한 비용 요소가 아니고 링크의 수 또는 스위치의 정도가 주요 비용이라고 가정하면 치수를 최소화하고 메시를 만들어야합니다. 세워짐.

최악의 경우 각 네트워크의 트래픽 패턴은 모든 경로가 짧은 고차원 네트워크를 갖는 것이 좋습니다. 각 노드가 하나 또는 두 개의 인접 이웃과 만 통신하는 패턴에서는 실제로 몇 개의 차원 만 사용되므로 저 차원 네트워크를 사용하는 것이 좋습니다.

라우팅

네트워크의 라우팅 알고리즘은 소스에서 대상까지 가능한 경로 중 어떤 경로가 경로로 사용되는지와 각 특정 패킷이 따르는 경로가 결정되는 방법을 결정합니다. 차원 순서 라우팅은 각 소스에서 각 목적지까지 정확히 하나의 경로가 있도록 법적 경로 세트를 제한합니다. 먼저 고차원 차원에서 올바른 거리를 이동 한 다음 다음 차원 등으로 이동하여 얻은 것입니다.

라우팅 메커니즘

산술, 소스 기반 포트 선택 및 테이블 조회는 고속 스위치가 패킷 헤더의 정보에서 출력 채널을 결정하는 데 사용하는 세 가지 메커니즘입니다. 이러한 모든 메커니즘은 기존의 LAN 및 WAN 라우터에 구현 된 일반적인 라우팅 계산보다 간단합니다. 병렬 컴퓨터 네트워크에서 스위치는 모든주기의 모든 입력에 대해 라우팅 결정을 내려야하므로 메커니즘은 간단하고 빠르 야합니다.

결정적 라우팅

라우팅 알고리즘은 메시지가 사용하는 경로가 네트워크의 다른 트래픽이 아니라 원본과 대상에 의해서만 결정되는 경우 결정적입니다. 라우팅 알고리즘이 대상에 대한 최단 경로 만 선택하는 경우 최소값이고 그렇지 않으면 최소값이 아닙니다.

교착 상태 자유

교착 상태는 다양한 상황에서 발생할 수 있습니다. 두 노드가 서로 데이터를 보내려고 시도하고 각 노드가 수신하기 전에 전송을 시작하면 'head-on'교착 상태가 발생할 수 있습니다. 교착 상태의 또 다른 경우는 네트워크 내의 리소스를두고 경쟁하는 여러 메시지가있을 때 발생합니다.

네트워크에 교착 상태가 없음을 입증하는 기본 기술은 메시지가 네트워크를 통해 이동하는 결과로 채널간에 발생할 수있는 종속성을 제거하고 전체 채널 종속성 그래프에주기가 없음을 표시하는 것입니다. 따라서 교착 상태로 이어질 수있는 트래픽 패턴이 없습니다. 이를 수행하는 일반적인 방법은 모든 경로가 특정 증가 또는 감소 시퀀스를 따르도록 채널 리소스에 번호를 매겨 종속성주기가 발생하지 않도록하는 것입니다.

스위치 디자인

네트워크 설계는 스위치 설계 및 스위치가 함께 연결되는 방식에 따라 다릅니다. 스위치의 정도, 내부 라우팅 메커니즘 및 내부 버퍼링은 지원할 수있는 토폴로지와 구현할 수있는 라우팅 알고리즘을 결정합니다. 컴퓨터 시스템의 다른 하드웨어 구성 요소와 마찬가지로 네트워크 스위치에는 데이터 경로, 제어 및 저장소가 포함됩니다.

항구

총 핀 수는 실제로 총 입력 및 출력 포트 수에 채널 폭을 곱한 값입니다. 칩의 경계가 면적에 비해 천천히 증가함에 따라 스위치는 핀이 제한되는 경향이 있습니다.

내부 데이터 경로

데이터 경로는 각 입력 포트 세트와 모든 출력 포트 간의 연결입니다. 일반적으로 내부 크로스 바라고합니다. 비 차단 크로스바는 각 입력 포트를 모든 순열에서 동시에 별개의 출력에 연결할 수있는 크로스바입니다.

채널 버퍼

스위치 내의 버퍼 스토리지 구성은 스위치 성능에 중요한 영향을 미칩니다. 기존 라우터 및 스위치는 스위치 패브릭 외부에 큰 SRAM 또는 DRAM 버퍼를 갖는 경향이있는 반면, VLSI 스위치에서는 버퍼링이 스위치 내부에 있으며 데이터 경로 및 제어 섹션과 동일한 실리콘 예산에서 나옵니다. 칩 크기와 밀도가 증가함에 따라 더 많은 버퍼링을 사용할 수 있고 네트워크 설계자는 더 많은 옵션을 사용할 수 있지만 여전히 버퍼 공간이 가장 중요한 선택이며 그 구성이 중요합니다.

흐름 제어

네트워크의 여러 데이터 흐름이 동일한 공유 네트워크 리소스를 동시에 사용하려고하면 이러한 흐름을 제어하기 위해 몇 가지 조치를 취해야합니다. 데이터 손실을 원하지 않는 경우 일부 흐름은 차단하고 다른 흐름은 진행해야합니다.

흐름 제어의 문제는 모든 네트워크와 여러 수준에서 발생합니다. 그러나 병렬 컴퓨터 네트워크에서 로컬 및 광역 네트워크와 질적으로 다릅니다. 병렬 컴퓨터에서 네트워크 트래픽은 버스를 통과하는 트래픽만큼 정확하게 전달되어야하며 매우 짧은 시간에 매우 많은 수의 병렬 흐름이 있습니다.

마이크로 프로세서의 속도는 10 년에 10 배 이상 증가했지만 DRAM (Commodity Memory)의 속도는 두 배에 불과합니다. 즉, 액세스 시간이 절반으로 단축되었습니다. 따라서 프로세서 클록주기 측면에서 메모리 액세스 대기 시간이 10 년 동안 6 배 증가합니다. 다중 프로세서가 문제를 더욱 심화 시켰습니다.

버스 기반 시스템에서 프로세서와 메모리 사이에 고 대역폭 버스를 설정하면 메모리에서 데이터를 가져 오는 대기 시간이 증가하는 경향이 있습니다. 메모리가 물리적으로 분산되면 네트워크 및 네트워크 인터페이스의 대기 시간이 노드의 로컬 메모리에 액세스하는 대기 시간에 추가됩니다.

더 많은 노드가 계산에 비해 더 많은 통신을 의미하고 일반 통신을위한 네트워크에서 더 많은 점프를 의미하며 더 많은 경합이 발생할 가능성이 높기 때문에 지연 시간은 일반적으로 머신의 크기에 따라 증가합니다. 하드웨어 설계의 주요 목표는 확장 가능한 높은 대역폭을 유지하면서 데이터 액세스 대기 시간을 줄이는 것입니다.

지연 시간 허용 개요

대기 시간 허용 범위를 처리하는 방법은 머신의 리소스와 리소스 활용 방법을 살펴보면 가장 잘 이해할 수 있습니다. 프로세서 관점에서 한 노드에서 다른 노드로의 통신 아키텍처는 파이프 라인으로 볼 수 있습니다. 파이프 라인의 단계에는 소스 및 대상의 네트워크 인터페이스는 물론 네트워크 링크 및 스위치가 포함됩니다. 아키텍처가 통신을 관리하는 방법에 따라 통신 지원, 로컬 메모리 / 캐시 시스템 및 메인 프로세서에도 단계가 있습니다.

기본 통신 구조의 사용 문제는 프로세서 또는 통신 아키텍처가 주어진 시간에 사용 중이며, 통신 파이프 라인에서는 전송되는 단일 단어가 소스에서 대상으로 이동하기 때문에 한 번에 한 단계 만 사용 중입니다. 지연 시간 허용의 목표는 이러한 리소스의 사용을 가능한 많이 겹치는 것입니다.

명시 적 메시지 전달의 지연 시간 허용

메시지 전달에서 실제 데이터 전송은 일반적으로 보내기 작업을 사용하여 보낸 사람이 시작합니다. 수신 작업 자체가 데이터를 전달하도록 동기를 부여하는 것이 아니라 들어오는 버퍼의 데이터를 애플리케이션 주소 공간으로 복사합니다. 수신자가 시작한 통신은 데이터 소스 인 프로세스에 요청 메시지를 발행하여 수행됩니다. 그런 다음 프로세스는 다른 전송을 통해 데이터를 다시 보냅니다.

동기식 전송 작업은 메시지의 모든 데이터를 대상에 전달하는 데 걸리는 시간, 수신 처리 시간 및 승인이 반환되는 시간과 동일한 통신 대기 시간을 갖습니다. 동기 수신 작업의 대기 시간은 처리 오버 헤드입니다. 여기에는 데이터를 애플리케이션으로 복사하는 것과 데이터가 아직 도착하지 않은 경우 추가 대기 시간이 포함됩니다. 가능하면 오버 헤드를 포함하여 양쪽 끝에서 이러한 지연 시간을 숨기고 싶습니다.

공유 주소 공간의 대기 시간 허용

기본 통신은 공유 주소 공간에서 읽기 및 쓰기를 통해 이루어집니다. 편의상 읽기-쓰기 통신이라고합니다. 수신자가 시작한 통신은 다른 프로세서의 메모리 또는 캐시의 데이터에 액세스하는 읽기 작업으로 수행됩니다. 공유 데이터의 캐싱이없는 경우 송신자가 시작한 통신은 원격 메모리에 할당 된 데이터에 쓰기를 통해 수행 될 수 있습니다.

캐시 일관성을 사용하면 쓰기 효과가 더 복잡해집니다. 쓰기가 송신자 또는 수신자가 시작한 통신으로 이어지는 것은 캐시 일관성 프로토콜에 따라 달라집니다. 수신자가 시작하거나 발신자가 시작하는 하드웨어 지원 읽기 쓰기 공유 주소 공간의 통신은 자연스럽게 세분화되므로 허용 대기 시간이 매우 중요합니다.

공유 주소 공간에서 데이터 전송 차단

공유 주소 공간에서 하드웨어 또는 소프트웨어에 의해 데이터 통합 ​​및 블록 전송 시작은 사용자 프로그램에서 명시 적으로 수행되거나 시스템에서 투명하게 수행 될 수 있습니다. 명시 적 블록 전송은 사용자 프로그램에서 전송과 유사한 명령을 실행하여 시작됩니다. 송신 명령은 소스 노드에서 대상으로 파이프 라인 방식으로 데이터를 전송하는 통신 지원에 의해 설명됩니다. 목적지에서 통신 지원은 네트워크 인터페이스에서 데이터 단어를 가져와 지정된 위치에 저장합니다.

송신-수신 메시지 전달과는 두 가지 주요 차이점이 있습니다. 두 가지 모두 송신 프로세스가 데이터가 대상에 배치 될 프로그램 데이터 구조를 직접 지정할 수 있다는 사실에서 발생합니다. 이러한 위치는 공유 주소 공간에 있기 때문입니다. .

공유 주소 공간에서 과거의 긴 대기 시간 이벤트 처리

메모리 작업이 비 블로킹으로 만들어지면 프로세서는 메모리 작업을지나 다른 명령으로 진행할 수 있습니다. 쓰기의 경우 일반적으로 쓰기가 쓰기 버퍼에 들어가고 버퍼가 메모리 시스템에 쓰기를 처리하고 필요에 따라 완료를 추적하는 동안 프로세서가 계속 실행되면 구현하기가 매우 간단합니다. 차이점은 쓰기와 달리 일반적으로 읽기에 의해 반환 된 값을 필요로하는 명령이 읽기에 이어진다는 것입니다.

공유 주소 공간에서의 사전 통신

Pre-communication은 이미 상용 마이크로 프로세서에 널리 채택 된 기술이며 향후 그 중요성이 커질 것으로 보입니다. 프리 페치 명령어는 데이터 항목의 실제 읽기를 대체하지 않으며, 오버랩을 통해 지연 시간을 숨기려는 목표를 달성하려면 프리 페치 명령어 자체가 비 차단이어야합니다.

이 경우 공유 데이터가 캐시되지 않으므로 프리 페치 된 데이터는 프리 페치 버퍼라는 특수 하드웨어 구조로 가져옵니다. 단어가 실제로 다음 반복에서 레지스터로 읽혀질 때 메모리가 아닌 프리 페치 버퍼의 헤드에서 읽 힙니다. 숨길 지연 시간이 단일 루프 반복을 계산하는 시간보다 훨씬 더 큰 경우 여러 반복을 미리 미리 가져오고 한 번에 미리 가져 오기 버퍼에 잠재적으로 여러 단어가있을 수 있습니다.

공유 주소 공간의 멀티 스레딩

다른 유형의 대기 시간을 숨기는 측면에서 하드웨어 지원 멀티 스레딩은 아마도 다목적 기술 일 것입니다. 다른 접근 방식에 비해 다음과 같은 개념적 이점이 있습니다.

  • 특별한 소프트웨어 분석이나 지원이 필요하지 않습니다.

  • 동적으로 호출되기 때문에 캐시 충돌과 같은 예측할 수없는 상황과 예측 가능한 상황을 처리 할 수 ​​있습니다.

  • 프리 페칭과 마찬가지로 스레드 내에서 액세스 순서를 변경하지 않으므로 메모리 일관성 모델을 변경하지 않습니다.

  • 이전 기술은 메모리 액세스 대기 시간을 숨기는 것이 목적이지만, 멀티 스레딩은 런타임에 이벤트를 감지 할 수있는 한 잠재적으로 긴 대기 시간 이벤트의 대기 시간을 숨길 수 있습니다. 여기에는 동기화 및 명령 대기 시간도 포함됩니다.

이 추세는 프로세서 속도에 비해 지연 시간이 점점 더 길어짐에 따라 향후 변경 될 수 있습니다. 또한 멀티 스레딩을 위해 확장 할 수있는 방법을 이미 제공하는보다 정교한 마이크로 프로세서와 멀티 스레딩을 명령어 수준 병렬 처리와 결합하기 위해 새로운 멀티 스레딩 기술이 개발됨에 따라 이러한 추세는 확실히 미래에 약간의 변화를 겪고있는 것 같습니다.