cuda - 違いは何ですか: DRAMスループットとグローバルメモリスループット

Question

カーネルによって達成される実際のスループットは、4 つのメトリックを使用して CUDA プロファイラーによって報告されます。

グローバルメモリロードスループット
グローバルメモリストアのスループット
DRAM 読み取りスループット
DRAM 書き込みスループット

CUDA C ベストプラクティスガイドでは、グローバルメモリのロード/ストアスループットを実際のスループットとして説明しており、DRAM の読み取り/書き込みスループットについて具体的には何も述べていません。

CUPTI ユーザーガイドでは、次のように定義されています。

((128*global_load_hit) + (l2_subp0_read_requests + l2_subp1_read_requests) * 32 - (l1_cached_local_ld_misses * 128))/(gputime)としてのグローバルメモリロードスループット
(l2_subp0_write_requests + l2_subp1_write_requests) * 32 - (l1_cached_local_ld_misses * 128))/(gputime)としてのグローバルメモリストアスループット
(fb_subp0_read + fb_subp1_read) * 32 / gputimeとしての DRAM 読み取りスループット
(fb_subp0_write + fb_subp1_write) * 32 / gputimeとしての DRAM 書き込みスループット

fb_subp* カウンターが多数の DRAM アクセス (32 バイトアクセスの場合は 1 ずつ増加) を報告し、すべての SM について収集されるため、DRAM の読み取り/書き込みスループットを理解しています。したがって、スループットが gputime とアクセスされたバイト数の関数として計算されることは明らかです。

グローバルメモリスループットの定義がわかりません。global_load_hit および counter の定義はありません。どちらの場合も l1_cached_local_ld_misses が差し引かれる理由がわかりません。

このコンテキストでは、DRAM はグローバルメモリとは異なるものですか?

カーネルの実際のスループットを知りたい場合、DRAM またはグローバルメモリスループットメトリックを使用する必要がありますか?

score 0 · Accepted Answer

グローバルメモリのロード/ストアはキャッシュを経由します。それらのいくつかはヒットまたはライトバックを見つけるかもしれません. これにより、DRAM へのアクセスが回避されます。したがって、グローバルメモリのスループットは、ロード/ストアリクエストの数とキャッシュのヒット/ミスの比率に依存します。

一方、DRAM スループットは、DRAM アクセスのみに基づいて計算され、キャッシュの影響は考慮されません。

この場合のカーネルスループットを測定するには、キャッシュ効果が含まれているため、グローバルメモリスループットを使用する必要があります。

cuda - 違いは何ですか: DRAMスループットとグローバルメモリスループット

2 に答える 2

Related

Reference