c - 内積 - SSE2 と BLAS の比較

Question

ベクトル x と多数のベクトル y_i の内積を計算するための私の最善の策は何ですか。x と y_i の長さは 10k 程度です。

ここでは一般的なガイダンスを探しているだけなので、どんな提案も役に立ちます。
はい、私にはパフォーマンスが必要です。光をありがとう。

score 1 · Accepted Answer

最適化されたBLASルーチンの代替：

score 0 · Accepted Answer

以下は、SSE を使用した BLAS レベル 1 (ベクトル操作) ルーチンを提供します。

nVidia グラフィックカードをお持ちの場合は、グラフィックカードで操作を実行する cuBLAS を入手できます。

ATI (AMD) グラフィックカードの場合

score 0 · Accepted Answer

SSE2 ソリューションのハンドコーディングはそれほど難しくなく、純粋な C ルーチンよりも大幅に高速化されます。これが BLAS ルーチンにどの程度影響するかは、ユーザーが決定する必要があります。

最大のスピードアップは、データを構造化してフォーマットにすることで得られるため、データの並列処理と配置を活用できます。

score 0 · Accepted Answer

GotoBLASを使用しています。これは、高パフォーマンスのカーネルルーチンです。MKL や BLAS より何倍も優れています。

5 に答える 5