opencl - 科学計算用の Cayman Architecture におけるローカルデータストアとテクスチャキャッシュ

Question

ATI HD 6990 カード (Cayman アーキテクチャ) で AMD-APP-SDK 2.4 を使用して GEMM 実装を実装しようとしています。

最適化手法の 1 つは、ブロッキング/タイリングの使用です。

その実装では、サブマトリックスを共有ローカルメモリに保存した方が高速ですか、それともテクスチャキャッシュを使用した方が高速ですか? できれば理由もお願いします。

また、どちらが実装しやすいかを提案してください。

ありがとう。

PSそれが重要な場合は、単精度のみが必要です!

注: サブマトリックスのサイズは問題ではありませんが、大きければ大きいほど良いと思います。考慮すべき唯一の要因は、メモリの単位が 128 ビット (4 単精度) の場合、ブロックサイズは 4 の倍数である必要があるということです。

score 1 · Accepted Answer

サイプレスチップは、5800シリーズのRadeonsで使用されていました。6900シリーズはCaymanコアを使用しますが、これにはいくつかの重要な違いがあります。特に、以前のコアで使用されていたVLIW5構成ではなくVLIW4アーキテクチャであるという点があります。

いつものように、どちらの方法が速いかを知る唯一の決定的な方法は、それをベンチマークすることです。特に、部分行列のサイズに関する情報を提供しないため、それらが最適な場所を特定するのは困難です。

opencl - 科学計算用の Cayman Architecture におけるローカル データ ストアとテクスチャ キャッシュ