c++ - 行列ベクトルの倍数と dgemm

Question

コードで多数の行列とベクトルの乗算を行っています。私の単純な実装は、MKL10 の cblas_dgemm より優れていることがわかりました。これが当てはまる理由は、dgemmが alpha*A *B + beta *C を実行するのに対し、私は A*B しか実行していないためだと思います。しかし、単純な実装は大幅に優れています (〜 3 倍のスピードアップ)。なぜこれが当てはまるのでしょうか？

以下は、matrix-vector-mult の実装です。

void mat_vec_mul(double *a, double *b, double *c, int m, int k)
{

    for (int ii = 0; ii < m; ii++){
        for (int kk = 0; kk < k; kk++){
            *c += *(a+ii*k+kk) * *(b+ii);       

        }
        c++;
    }
}

score 0 · Accepted Answer

さて、あなたはコードをベンチマークしました。しかし、DGEMM と同じ方法で乗算を実行してみませんか?

DGEMM が alpha * A * B + beta * C を行うと既に述べたので、それも書いてみて、DGEMM と比較してみてください。

おそらく、DGEMM よりも高速 (または低速) であることがわかります。実行する操作が大幅に減っています。これが、より高速な理由である可能性が最も高いです。

score 0 · Accepted Answer

元の blas ルーチンhttp://www.netlib.org/blas/dgemm.fには、beta の値をテストする多数の if ステートメントが含まれています。私はそれがすでにパフォーマンスにいくらかのオーバーヘッドを生成していると思います。元の dgemm ルーチンを使用して、検討しているケースに特化するとどうなるのだろうか。さらに、マトリックスサイズによる比較も見られるとよいでしょう。

c++ - 行列ベクトルの倍数と dgemm

2 に答える 2

Related

Reference