함수 의존성 openMP
5 가지 기능 A, B, C, D, E가 있습니다.
DI를 실행하려면 B, C가 실행되고 EI를 실행하려면 A, D가 실행되어야합니다.
나는 이것을 시도했다
int main()
{
#pragma omp parallel num_threads(5)
{
long t1 = clock();
int a = 0, b = 0, c = 0, d = 0, e = 0;
int th = omp_get_thread_num();
if (th == 0) {
a += A();
printf("A is finished after %d\n", clock() - t1);
}
if (th == 1) {
b += B();
printf("B is finished after %d\n", clock() - t1);
}
if (th == 2) {
c += C();
printf("C is finished after %d\n", clock() - t1);
}
if (th == 3 && (b == 1 && c == 1)) {
d += D();
printf("D is finished after %d\n", clock() - t1);
}
if (th == 4 && (a == 1 && d == 1)) {
e += E();
printf("E is finished after %d\n", clock() - t1);
}
}
return 0;
}
하지만 D, E는 실행하지 않았습니다.
이 모든 함수는 디버깅 목적으로 지금까지 1을 반환합니다.
답변
변수는 a
, b
, c
및 d,
사용할 수 없습니다 통신 그들은 모두 있기 때문에 스레드간에 개인 . 따라서 각 스레드에는 자체 개인 사본이 있습니다. 또한 일반적으로 동기화 목적으로 사용하는 것은 좋지 않습니다.
코드 thread=3
에서 다음과 같은 if (th == 3 && (b == 1 && c == 1))
이유로 기다리지 않을 것입니다 .
b
그리고c
그렇게, 사립thread=3
이b=0
와c=0
관계없이 다른 스레드가 자신에게 한 일의 사본 변수b=0
와c=0
.- 이 아무것도 말하고 스레드 (대기하는 것을 예를 들어, 일부 동기화 모두 생성자).
스레드가 서로를 기다리게하려면 omp barrier
대신 사용하십시오 . 모든 스레드는 계산을 진행하기 전에 장벽을 호출해야합니다.
int main()
{
#pragma omp parallel num_threads(5)
{
long t1 = clock();
int a = 0, b = 0, c = 0, d = 0, e = 0;
int th = omp_get_thread_num();
if (th == 0) {
a += A();
printf("A is finished after %d\n", clock() - t1);
}
if (th == 1) {
b += B();
printf("B is finished after %d\n", clock() - t1);
}
if (th == 2) {
c += C();
printf("C is finished after %d\n", clock() - t1);
}
// Threads will wait for each other here
#pragma omp barrier
if (th == 3) {
d += D();
printf("D is finished after %d\n", clock() - t1);
}
// Threads will wait for each other here
#pragma omp barrier
if (th == 4) {
e += E();
printf("E is finished after %d\n", clock() - t1);
}
}
return 0;
}
보다 정교한 접근 방식은 OpenMP 4.0 표준에 릴리스 된 기능과 종속성이있는 작업을 사용하는 것입니다. 이 스레드 에서이 기능이 어떻게 작동하는지에 대한 멋진 설명이 이미 있습니다 .
int a = 0, b = 0, c = 0, d = 0, e = 0;
#pragma omp parallel num_threads(5) shared(a, b, c, d)
{
#pragma omp single nowait
{
long t1 = clock();
int th = omp_get_thread_num();
#pragma omp task depend (out:a)
{
a += A();
printf("A is finished after %d\n", clock() - t1);
}
#pragma omp task depend (out:b)
{
b += B();
printf("B is finished after %d\n", clock() - t1);
}
#pragma omp task depend (out:c)
{
c += C();
printf("C is finished after %d\n", clock() - t1);
}
#pragma omp task depend (in:a, b) depend(out:d)
{
d += D();
printf("D is finished after %d\n", clock() - t1);
}
#pragma omp task depend (in:a, b)
{
e += E();
printf("E is finished after %d\n", clock() - t1);
}
}
}
return 0;
}
적절한 OpenMP 솔루션은 데이터 종속성이있는 작업을 사용하는 것입니다.
#pragma omp parallel num_threads(3)
#pragma omp single
{
double t1 = omp_wtime();
int a = 0, b = 0, c = 0, d = 0, e = 0;
#pragma omp task shared(a) depend(out: a)
{
a += A();
printf("A is finished after %f\n", omp_wtime() - t1);
}
#pragma omp task shared(b) depend(out: b)
{
b += B();
printf("B is finished after %f\n", omp_wtime() - t1);
}
#pragma omp task shared(c) depend(out: c)
{
c += C();
printf("C is finished after %f\n", omp_wtime() - t1);
}
#pragma omp task shared(b,c,d) depend(in: b,c) depend(out: d)
{
d += D();
printf("D is finished after %f\n", omp_wtime() - t1);
}
#pragma omp task shared(a,d,e) depend(in: a,d)
{
e += E();
printf("E is finished after %f\n", omp_wtime() - t1);
}
}
여기서 task A
는 a
with 값에 대해 생산자로 표시 depend(out: a)
되고 task D
는 d
with 의 생산자로 표시됩니다 depend(out: d)
. 작업 E
은이 두 값의 소비자로 표시됩니다 depend(in: a,d)
. 출력 (생산자) 및 입력 (소비자) 종속성에 따라 OpenMP 런타임은 모든 작업의 적절한 실행 순서를 알려주는 실행 DAG (방향성 비순환 그래프)를 빌드합니다. 또한 5 개의 스레드가 필요하지 않습니다. 3 개이면 충분합니다.
single
구문 내부에 태스크 코드를 포함하는 것은 매우 관용적 인 OpenMP입니다.
작업 종속성은 2013 년에 OpenMP 4.0에서 도입되었으므로 MSVC ++를 제외한 모든 최신 컴파일러는 해당 기능에 대한 지원을 제공해야합니다.