c++ - コンストラクトパフォーマンスのための OpenMP 並列化

翻译自：https://stackoverflow.com/questions/14405720 2013-01-18T18:58:03.637

95 次

最初の方法 (内側のループを並列化):

for(j=0; j<LATTICE_VW; ++j) {
    x = j*DX + LATTICE_W;
    #pragma omp parallel for ordered private(y, prob)
        for(i=0; i<LATTICE_VH; ++i) {
            y = i*DY + LATTICE_S;
            prob = psi[i][j].norm();

            #pragma omp ordered
                out << x << " " << y << " " << prob << endl;
        }
}

2 番目の方法 (外側のループを並列化):

#pragma omp parallel for ordered private(x, y, prob)
    for(j=0; j<LATTICE_VW; ++j) {
        x = j*DX + LATTICE_W;
        for(i=0; i<LATTICE_VH; ++i) {
            y = i*DY + LATTICE_S;
            prob = psi[i][j].norm();

            #pragma omp ordered
                out << x << " " << y << " " << prob << endl;
        }
    }

3 番目の方法 (折りたたまれたループを並列化する)

#pragma omp parallel for collapse(2) ordered private(x, y, prob)
    for(j=0; j<LATTICE_VW; ++j) {
        for(i=0; i<LATTICE_VH; ++i) {
            x = j*DX + LATTICE_W;
            y = i*DY + LATTICE_S;
            prob = psi[i][j].norm();

            #pragma omp ordered
                out << x << " " << y << " " << prob << endl;
        }
    }

推測するなら、方法 3 が最も速いはずです。

ただし、方法 1 が最も高速ですが、2 番目と 3 番目の方法は、並列化を行わない場合とほぼ同じ時間がかかります。なぜこれが起こるのですか？

c++ - コンストラクト パフォーマンスのための OpenMP 並列化

1 に答える 1

Related

Reference

c++ - コンストラクトパフォーマンスのための OpenMP 並列化