4

コマンドラインから nvprof --metrics を使用して帯域幅を測定するための正しいオプションはどれですか? ピーク FLOPS のパーセンテージを取得するために flop_dp_efficiency を使用していますが、マニュアルには帯域幅測定のオプションがたくさんあるようで、何を測定しているのかよくわかりません。たとえば、dram_read、dram_write、gld_read、gld_write はすべて同じように見えます。また、両方が同時に発生すると仮定して、帯域幅を読み取り+書き込みスループットの合計として報告する必要がありますか?

編集:

図の優れた回答に基づいて、デバイスメモリからカーネルへの帯域幅はどうなりますか? カーネルからデバイス メモリへのパスの帯域幅 (読み取り + 書き込み) を最小限に抑えることを考えています。これはおそらく L2 キャッシュへのドラムです。

FLOPS と帯域幅を測定することにより、カーネルが計算またはメモリにバインドされているかどうかを判断しようとしています。

4

1 に答える 1