タイミング情報を収集するために NVIDIA Visual Profiler がプログラムをシリアル化することを多くのフォーラムで読みました。
ただし、ビジュアル プロファイラーのコンテキスト タブでは、 「GPU 上のメモリ コピーとカーネルの間に時間の重複はありません」などのアドバイスが表示されます。または、メモリとカーネルの実行に重複がある場合は、重複の時間が表示されます。また、次のウェビナー (スライド 6 ) を見ると、オーバーラップするカーネルの出力トレースを見ることができます。
プロファイラーがカーネルの同時実行に関する情報を表示できるかどうかを知りたいです (つまり、3 つの異なるストリームを使用して 3 つのカーネルを並行して実行する場合、プロファイラーはこれが実際に GPU で発生しているかどうかを示すことができます)。もしそうなら、ビジュアルプロファイラーのどこでこの情報を入手できますか?