2

ATI HD 6990 カード (Cayman アーキテクチャ) で AMD-APP-SDK 2.4 を使用して GEMM 実装を実装しようとしています。

最適化手法の 1 つは、ブロッキング/タイリングの使用です。

その実装では、サブマトリックスを共有ローカル メモリに保存した方が高速ですか、それともテクスチャ キャッシュを使用した方が高速ですか? できれば理由もお願いします。

また、どちらが実装しやすいかを提案してください。

ありがとう。

PSそれが重要な場合は、単精度のみが必要です!

注: サブ マトリックスのサイズは問題ではありませんが、大きければ大きいほど良いと思います。考慮すべき唯一の要因は、メモリの単位が 128 ビット (4 単精度) の場合、ブロック サイズは 4 の倍数である必要があるということです。

4

1 に答える 1

1

サイプレスチップは、5800シリーズのRadeonsで使用されていました。6900シリーズはCaymanコアを使用しますが、これにはいくつかの重要な違いがあります。特に、以前のコアで使用されていたVLIW5構成ではなくVLIW4アーキテクチャであるという点があります。

いつものように、どちらの方法が速いかを知る唯一の決定的な方法は、それをベンチマークすることです。特に、部分行列のサイズに関する情報を提供しないため、それらが最適な場所を特定するのは困難です。

于 2011-06-17T01:21:23.673 に答える