OpenMPを使って簡単なアプリケーションを書いてみます。残念ながら、スピードアップに問題があります。このアプリケーションでは、whileループが1つあります。このループの本体は、順次実行する必要のあるいくつかの命令と1つのforループで構成されています。私は#pragma omp parallel for
これをforループを並列にするために使用します。このループはあまり機能しませんが、頻繁に呼び出されます。
forループの2つのバージョンを準備し、1、2、および4コアでアプリケーションを実行します。
バージョン1(forループで4回の反復):22秒、23秒、26秒。
バージョン2(forループで100000回の反復):20秒、10秒、6秒。
ご覧のとおり、forループの作業が少ない場合、2コアと4コアの方が1コアよりも時間がかかります。#pragma omp parallel for
その理由は、whileループの反復ごとに新しいスレッドが作成されるためだと思います。だから、私はあなたに尋ねたいと思います-一度(whileループの前に)スレッドを作成し、whileループのいくつかのジョブが順番に実行されることを保証する可能性はありますか?
#include <omp.h>
#include <iostream>
#include <math.h>
#include <stdlib.h>
#include <stdio.h>
#include <time.h>
int main(int argc, char* argv[])
{
double sum = 0;
while (true)
{
// ...
// some work which should be done sequentially
// ...
#pragma omp parallel for num_threads(atoi(argv[1])) reduction(+:sum)
for(int j=0; j<4; ++j) // version 2: for(int j=0; j<100000; ++j)
{
double x = pow(j, 3.0);
x = sqrt(x);
x = sin(x);
x = cos(x);
x = tan(x);
sum += x;
double y = pow(j, 3.0);
y = sqrt(y);
y = sin(y);
y = cos(y);
y = tan(y);
sum += y;
double z = pow(j, 3.0);
z = sqrt(z);
z = sin(z);
z = cos(z);
z = tan(z);
sum += z;
}
if (sum > 100000000)
{
break;
}
}
return 0;
}