optimization - 最適化されたアセンブリコード (BLAS)

Question

したがって、通常、アセンブリコードによるパフォーマンスの向上に関する質問への回答は、「気にしないでください。コンパイラはあなたよりも賢い」というものです。そして、私はそれを理解します。

しかし、最適化された線形代数ライブラリ (ACML など) は、標準のコンパイル済みライブラリよりも 2 倍から 5 倍の範囲でパフォーマンスが向上することに気付きました。たとえば、私の 8 コアマシンでは、ストックのシングルスレッド BLAS 実装と比較して、最適化された行列乗算を 30 倍以上高速に実行しました。最適化だけで改善。

したがって、最適化されたアセンブリコードは本当に大きな違いを生むように思えます。何か不足していますか？

とてつもなく難しくなければ、他のコードセグメントでこれを試してみたいと思うかもしれないので、質問しています。複雑なことは何もありませんが、小さな内部ループをアセンブリで記述することで 2 倍の改善が得られれば、それだけの価値があるかもしれません。

score 4 · Accepted Answer

マトリックス-マトリックス製品の高速化は、アセンブリコードの使用による部分的なものにすぎません。単純な実装では、主なボトルネックはメモリアクセスです。ほとんどの場合、CPU は実際の計算を待機します。

最初に、L2 および L1 キャッシュ内のデータをできるだけ頻繁に再利用できるように、行列 - 行列乗算のアルゴリズムを変更する必要があります。これは、C (または C++、Fortran、または ...) で行うことができます。これにより、行列のサイズがキャッシュよりも大きくなっても機能しなくなることのない実装になります。また、実装が常に計算を実行できることも意味します (CPU レジスタで必要なデータはほとんど常に L1 キャッシュにあり、L1 キャッシュで必要なデータはほとんど常に L2 キャッシュにあります...)。

次のステップは、すべての計算が行われるホットスポットを最適化することです。これには数行の C コードしか含まれていません (私のGEMM チュートリアルでは 10 行しかありません)。アセンブリコードは、SSE (または AVX) を使用して、命令のパイプライン処理、ループ展開 (分岐予測を改善するため)、プリフェッチ (キャッシュミスを減らすため) に関して最適化を行います。

同様の手法は、他の BLAS レベル 3 関数にも使用できます。実際、それらのほとんどは、GEMM 関数の内部のもの (いわゆるマイクロカーネル) を使用します。

ulmBLAS ベンチマークでは、ほぼすべての BLAS レベル 3 関数がほぼ同じパフォーマンスを達成できることがわかります。

より完全な読み物として、Robert A. van de Geijn と Enrique S. Quintana-Ortí によるすばらしい論文The Science of Programming Matrix Computationsをお勧めします。また、ほとんどのアイデアがulmBLASのために採用され、単純化されている BLISも見たいと思うかもしれません。

score 2 · Accepted Answer

最適化されたアセンブリコードにより、速度が大幅に向上します。

私の調査によると、「コンパイラの方が優れている」という主張は偏っていて、実生活とは何の関係もないことがわかっています。それは神話です。

コンパイラーは、適切に作成された HLL プログラムと、非常に優れたコンパイラーでコンパイルされたものと、適切に作成されていないアセンブリー・プログラムを比較した場合にのみ優れています。

優れた、あるいはまともなアセンブリプログラマがそれほど多くないことは、別の話です。:)

optimization - 最適化されたアセンブリ コード (BLAS)

2 に答える 2

Related

Reference

optimization - 最適化されたアセンブリコード (BLAS)