ATI HD 6990 カード (Cayman アーキテクチャ) で AMD-APP-SDK 2.4 を使用して GEMM 実装を実装しようとしています。
最適化手法の 1 つは、ブロッキング/タイリングの使用です。
その実装では、サブマトリックスを共有ローカル メモリに保存した方が高速ですか、それともテクスチャ キャッシュを使用した方が高速ですか? できれば理由もお願いします。
また、どちらが実装しやすいかを提案してください。
ありがとう。
PSそれが重要な場合は、単精度のみが必要です!
注: サブ マトリックスのサイズは問題ではありませんが、大きければ大きいほど良いと思います。考慮すべき唯一の要因は、メモリの単位が 128 ビット (4 単精度) の場合、ブロック サイズは 4 の倍数である必要があるということです。