1

openmp を使用して構造化されていないプログラムを最適化するという課題が与えられました。私はプログラミングに非常に慣れていないので、この関数を最適化する方法について誰かが光を当ててくれることを願っています(最適化する必要がある多くの1つ):

void
entry_type3(F2D *sData, F2D *ones, F2D *quat, F2D **pos, F2D **vel)
{
    //Observation

   F2D *t;

   t = fSetArray(1, 3, 0);
    asubsref(t,2) = -9.8;


    F2D *accl = fDeepCopyRange(sData, 0, 1, 0, 3);
    F2D *gtemp = fMtimes( ones, t);
    F2D *gravity = quatRot(gtemp, quat);



    fFreeHandle(gtemp);
    fFreeHandle(t);

   t = fSetArray(3,3,0);
    asubsref(t,0) = 1;
    asubsref(t,4) = 1;
    asubsref(t,8) = 1;

    int n = ones->height;
    int i;
    for(i=0; i<(t->height*t->width); i++)
            asubsref(t,i) = asubsref(t,i)/STDDEV_ACCL;

   F2D *w = mcl( gravity, accl, t);

    generateSample(w, quat, *vel, *pos);
    fFreeHandle(t);


    //Motion model
  t = fMtimes(ones, accl);
    fFreeHandle(accl);
    accl = fMinus(t, gravity);
    fFreeHandle(w);
    fFreeHandle(gravity);
    fFreeHandle(t);




    F2D *is;
    #pragma omp parallel sections
    {
        #pragma omp section
        {
            F2D *is = quatConj(quat);
            F2D *s = quatRot(*vel, is);
            fFreeHandle(is);
            for(i=0; i<(s->height*s->width); i++)
            {
                 asubsref(s,i) = asubsref(s,i)*acclTimeInterval;
            }
            is = fPlus(*pos, s);
            fFreeHandle(*pos);
            *pos = fDeepCopy(is);
            fFreeHandle(is);
            fFreeHandle(s);
         }


        /** pos_ above stores: pos+quatRot(vel,quatConj(quat))*acclTimeInterval **/

        #pragma omp section
        {
            F2D *is = quatConj(quat);
            F2D *s = quatRot(accl, is);
            F2D* t = fDeepCopy(s);

            for(i=0; i<(s->height*s->width); i++)
            {
                asubsref(t,i) = 1/2*asubsref(s,i)*acclTimeInterval*acclTimeInterval;
            }

            /** t_ above stores: 1/2*quatRot(accl,quatCong(quat))*acclTimeInterval^2 **/

            fFreeHandle(s);
            fFreeHandle(is);


 s = randnWrapper(n,3);

            for(i=0; i<(s->height*s->width); i++)
            {
                asubsref(s,i) = asubsref(s,i) * M_STDDEV_POS;
            }

            /** s_ above stores: randn(n,3)*M_STDDEV_POS **/

       is = fPlus(*pos, t);
           fFreeHandle(*pos);
         *pos = fPlus(is, s);

            fFreeHandle(s);
            fFreeHandle(t);
            fFreeHandle(is);
    } 

}        
        //vel=vel+accl*acclTimeInterval+randn(n,3)*M_STDDEV_VEL;
#pragma omp parallel sections
{
#pragma omp section
{
 F2D *t = fDeepCopy(accl);
#pragma omp parallel for
    for(i=0; i<(accl->height*accl->width); i++)
    {
            asubsref(t,i) = asubsref(accl,i) * acclTimeInterval;
    }

    is = fPlus(*vel, t);
    fFreeHandle(accl);
    fFreeHandle(t);
}
#pragma omp section
{

 F2D *s = randnWrapper(n,3);
#pragma omp parallel for
    for(i=0; i<(s->height*s->width); i++)
    {
            asubsref(s,i) = asubsref(s,i) * M_STDDEV_VEL;
    }

    fFreeHandle(*vel);
    *vel = fPlus(is, s);
    fFreeHandle(is);
    fFreeHandle(s);
}
}
}

すでにいくつかの openmp 並列を追加しましたが、まだ非常にゆっくりと実行されているため、経験豊富なベテランがパフォーマンスを改善するために注目すべきスポットを教えてくれることを期待していました。

4

2 に答える 2

0

今、それはちょうどいくつかを立ち往生しているように見えますpragmas helter skelterで、コードの並列性を気にする必要はありません。今のところ、実際にはプロセッサ間で作業を分割しているわけではありません。基本的に、各コアに同じことを実行させることで作業を複製しています(そして、おそらく途中でいくつかの重大な間違った答えを作成します)。オリジナルを見て、何が変わったかを確認するといいでしょう。実際には、プログラムでタスクを分割する必要があります(つまり、画像を処理している場合、たとえば、プロセッサ1に奇数ピクセルを実行し、プロセッサ2に偶数ピクセルを実行するように指示する必要がありますが、OpenMPはそれを理解するのに十分なほど賢くありません)。うまくいかない場合は申し訳ありませんが、これは課題の場合なので、おそらく自分である程度の金額を計算する必要があると思いますが、重要なのはOpenMPではできないことです。コードを並列化するだけです。あなたはそれをどのように伝える必要があります。omp_get_num_threads()とomp_get_thread_num()を調べます。

于 2012-11-23T06:04:32.990 に答える
0

冒頭のこのコード: for(i=0; i<(t->height*t->width); i++) asubsref(t,i) = asubsref(t,i)/STDDEV_ACCL; 効果的に並列化できます。それぞれの計算iは完全に独立しています。

コードのそのような独立した部分を探します。そしてもちろん、何を並列化するかを考える必要があります。

于 2012-11-23T09:01:55.760 に答える