ネストされたループがあります:(LとAは完全に定義された入力です)
#pragma omp parallel for schedule(guided) shared(L,A) \
reduction(+:dummy)
for (i=k+1;i<row;i++){
for (n=0;n<k;n++){
#pragma omp atomic
dummy += L[i][n]*L[k][n];
L[i][k] = (A[i][k] - dummy)/L[k][k];
}
dummy = 0;
}
そしてそのシーケンシャルバージョン:
for (i=k+1;i<row;i++){
for (n=0;n<k;n++){
dummy += L[i][n]*L[k][n];
L[i][k] = (A[i][k] - dummy)/L[k][k];
}
dummy = 0;
}
どちらも異なる結果をもたらします。また、パラレルバージョンはシーケンシャルバージョンよりもはるかに低速です。
何が問題を引き起こす可能性がありますか?
編集:
アトミックディレクティブによって引き起こされる問題を取り除くために、私は次のようにコードを変更しました。
#pragma omp parallel for schedule(guided) shared(L,A) \
private(i)
for (i=k+1;i<row;i++){
double dummyy = 0;
for (n=0;n<k;n++){
dummyy += L[i][n]*L[k][n];
L[i][k] = (A[i][k] - dummyy)/L[k][k];
}
}
しかし、それも問題を解決しませんでした。結果はまだ異なります。