1

私はComputeProf3.2とGeforceGTX280を使用しています。私はコンピューティング機能1.3を持っていると思いますが、

このファイルは、1.xコンピューティングデバイスを使用しているため、これらのフィールドを表示できるはずであることを示しているようです。まあ、私はそれらを見ることができず、3.2ツールキットのユーザーガイドは私がそれらを見ることができないと言っていますが、それらgst_uncoalescedをとと呼びますgst_coalesced

要約すると、グローバルメモリから非合体読み取りを行う場合、プロファイラーからどのように把握する必要があるかについて混乱しています。フェルミカードもそう言うようには見えませんが、今のところ心配していません。誰かが状況について詳しく説明してくれるなら、私はそれをいただければ幸いです。

また、私はこれを理解するために私のカーネルのアセンブリを見るように言われたので、これを行う方法についての詳細もありがたいです。私もそれを理解しようとし始めたばかりです:)

4

1 に答える 1

1

プロファイリング出力でも同様の問題が発生しました。8600(計算能力1.0)では、合体した読み取り/書き込みと合体していない読み取り/書き込みの両方が表示されましたが、GTX280では合体しただけでした。これは、gtx 280での合体が改善され、カットが不明瞭になったためだと思いました(1つの単語を除いてすべての合体が不要なメモリ読み取りですか?)。ただし、要約テーブルを調べるだけです。そこで、各カーネルの負荷とストアの効率がわかります。すべてのアクセスが合体した場合、その効率は1である必要があります。それ以外の場合は、1未満です(0.5は、ロードされたバイトの半分のみが使用されることを意味します)。

もちろん、それは、合体していないアクセスがカーネル内のどこにあるかを正確に把握するのにあまり役立たないので、合体がどのように機能するかを知るのが最善の方法です(各ハーフワープのアドレスは、アクセスされた値ではなく、32、64、および128バイトのアクセスに収集されます)その領域内はとにかく転送されます)そしてあなたのアクセスパターンを分析することはまだ最終的に行く方法です。

于 2010-10-04T15:49:15.550 に答える