cuda - cudaでuncached_global_load_transactionオプションを使用せずにグローバルメモリトランザクションの数をプロファイリングする方法は?

Question

GTX480 でのグローバルメモリトランザクションの数をプロファイリングしたいと考えています。ただし、そのフィールドの出力は常に 0 であるため、uncached_global_load_transaction オプションは役に立ちません。他の方法はありますか? たとえば、他のカウンターを有効にして、それらに基づいてトランザクション数を計算できますか?

score 1 · Accepted Answer

グローバルメモリは仮想アドレス空間です。データは、デバイスメモリまたは固定システムメモリに常駐できます。Compute Capability 2.x デバイスの場合、次のように階層を計算できます。

SM から L1C へのグローバルロードトランザクション

キャッシュトランザクションは 128B
sm2l1c_global_load_transactions = l1_global_load_hit + l1_global_load_miss

SM から L2C へのグローバルロードトランザクション

SM 非キャッシュグローバルトランザクションまたは L2 への L1 キャッシュミスは 32B トランザクションです。
sm2l2c_global_load_transactions = (l1_global_load_miss * 4) + uncached_global_load_transaction

CUDA プロファイラーは、global_atomic、global_atomic_cas、および global_red 操作のカウンターを公開しません。

CUDA プロファイラーは、グローバル対ローカルに基づいて L2 からシステムメモリまたはデバイスメモリにデータを表示するカウンターを公開しません。次のカウンターを使用して、L2 への帯域幅とシステムメモリ (PCIe 経由) またはデバイスメモリ (DRAM) への帯域幅を取得できます。

L2 トランザクション

L2 クエリは 32B
CUDA プロファイラーのバージョンに応じて、これには次のソースの 1 つ以上から L2 への読み取りが含まれます: SM L1 (ローカル、グローバル、アトム、サーフェス)、TEX キャッシュ、定数キャッシュ、命令キャッシュ、MMU、コピーエンジンなど。 .
l2_read_transactions = sum(l2_subp{0,1}_read_sector_queries)

デバイスメモリ (FB、DRAM)

DRAM への読み取り帯域幅は、L2 ミスと ECC (有効な場合) からのものです。
FB クエリは 32B
fb_read_transactions = sum(fb_supb{0,1}_read_sectors)

グローバルストア、ローカルロード/ストア、および L2 からシステムメモリへの計算は、同様のパターンに従います。

詳細については、CUPTI ユーザーズガイドのセクション「Event Reference - Compute Capability 2.x 」を参照してください。これらの文字列名は、CUDA プロファイラー、ビジュアルプロファイラー、nvprof (5.0)、および CUPTI API を使用する最近のドライバーで動作するはずです。

CUDA 5.0 を使用している場合、nvprof コマンドnvprof --query-eventsは、インストールされているデバイスで利用可能なすべてのイベントを一覧表示します。

cuda - cudaでuncached_global_load_transactionオプションを使用せずにグローバルメモリトランザクションの数をプロファイリングする方法は?

1 に答える 1

Related

Reference