cuda - NVVP とカウンターによって報告される時間の差

Question

私はCUDAプログラムのカーネルを実行しています。GPU カウンターによって報告された時間と、カーネル実行の NVVP との間にはかなりの差があることがわかりました。なぜそのような違いが通常観察されるのですか？

score 4 · Accepted Answer

Nsight Visual Studio Edition と Visual Profiler は、カーネルの期間をキャプチャするための 2 つのメカニズムをサポートしています。これらの方法は両方とも、CUevent/cudaEvent によって報告される値よりも小さく、より正確な値になります。方法は次のとおりです。

同時カーネルタイミング
これは、Nsight 2.x および Visual Profiler 5.0 がタイムラインを生成するために使用するデフォルトモードです。カーネルの期間は、カーネルコードがデバイス上で実行を開始してから完了するまでの時間として定義されます。これは、CUDA イベントを使用して測定することはできません。
シリアル化されたカーネルのタイミング
これは、各カーネルの PM カウンターを収集するときにツールによって使用されるデフォルトのモードです。カーネルの期間は、カーネルの完了後に GPU がアイドル状態になるまで、GPU が起動要求を処理する時間として定義されます。このモードは、カーネルの同時実行を具体的に無効にします。GPU が最初のブロックを起動する時間と GPU がすべてのメモリストアを完了する時間が含まれているため、ほとんどの場合、報告される時間は同時カーネルトレース時間よりもわずかに長くなります。
CUDA イベント範囲のタイミング
CUDA イベントのタイミングは、同じストリームでのカーネル起動の前後に cu/cudaEventRecord を呼び出すことによって行われます。各イベントレコードは、コマンドを GPU プッシュバッファーに挿入します。コマンドが GPU に到達すると、タイムスタンプがメモリに書き込まれます。起動せずに 2 つのイベントレコードをプッシュすることができます。これにより、開発者は 2 つのタイムスタンプコマンド間の GPU 時間を測定できます。この方法には次の欠点があります。開発者にツール (Nsight、Visual Profiler、および CUPTI) を使用することをお勧めするのはそのためです。

これらの各モードで提供される期間は、異なる値を提供します。さらに、ツールによって提供される期間の定義と、イベントを使用して利用できる期間の定義は異なります。

NVIDIA ツールは、GPU がカーネルで作業を開始してから GPU がカーネルで作業を完了するまでの時間として、可能な限り最適な期間を定義します。開発者がこの情報の収集に関心がある場合は、ツールキットに含まれている CUPTI SDK を確認する必要があります。

cuda - NVVP とカウンターによって報告される時間の差

1 に答える 1

Related

Reference