0

インテル Xeon Phi コプロセッサー (61 コア) 向けに、5 点ステンシル計算を実行する効果的な並列アプリケーションを作成したいと考えています。私は 2 つのバージョンのコードを書きました。

最初: OpenMP の「#pragma omp parralel for」を使用しました

void ParallelStencil(const double* macierzIn, double* macierzOut, const int m, const int n)
{
    int m_real = m + 2;
    int n_real = n + 2;

    TimeCPU t;
    t.start();
    #pragma omp parallel for schedule(static,1) shared(macierzIn, macierzOut)
    for(int i=1; i<m_real-1; ++i)
    {
        for(int j=1; j<n-1; ++j)
        {
            macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
                                             macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);
       }
    }
    t.stop();
    cout << "\nTime: " << t.time();
}

2 つ目: マトリックスを 61 個のコアに分割しました。マトリックスの各部分は、各コアで実行される 4 つの HW スレッドによって計算されます。このバージョンでは、同じ L2 キャッシュの周りで 4 つのスレッドの計算を行うことで、キャッシュ ミスを減らすことを試みました。

void ParallelStencil(const double* macierzIn, double* macierzOut, int m, int n)
{
    int m_real = m + 2;
    int n_real = m + 2;
    int coreCount = threadsCount / 4;
    int tID, coreNum, start, stop, step;

    TimeCPU t;
    t.start();
    #pragma omp parallel shared(macierzIn, macierzOut, m, n, m_real, n_real, coreCount) private(tID, coreNum, start, stop, step)
    {
        tID = omp_get_thread_num();
        coreNum = tID / 4;
        start = tID % 4 + ((m / coreCount) * coreNum) + 1;
        stop = (m / coreCount) * (coreNum + 1) + 1;
        if(coreNum == coreCount - 1 && stop != m_real - 1)
        {
                stop = m_real -1;
        }
        step = 4;

        for(int i=start; i<stop; i+=step)
        {
            for(int j=1; j<n+1; ++j)
            {
                macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
                                                 macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);

            }
        }
    }
    t.stop();
    cout << "\nTime: " << t.time();
}

この wersion ループでは、行列の各部分の反復が次のように実行されます。
i=0 -> スレッド 0
i=1 -> スレッド 1
i=2 -> スレッド 2
i=3 -> スレッド 3
i=4 -> スレッド0
...

このコードを実行した後。2 番目のバージョンは低速でした。しかし、なぜ?

4

1 に答える 1