ホスト関数を GPU カーネルとオーバーラップさせようとするプログラムがあります。ホスト関数が GPU カーネルとどの程度オーバーラップしているかを確認するために、NVIDIA のビジュアル プロファイラーを使用しています。しかし、プロファイラーはホスト関数のタイミング結果を表示しません。代わりに、CUDA カーネルの CPU 時間のみが表示されます。
ホスト関数のタイミング結果をビジュアル プロファイラーのタイムラインに統合する方法はありますか?
ホスト関数を GPU カーネルとオーバーラップさせようとするプログラムがあります。ホスト関数が GPU カーネルとどの程度オーバーラップしているかを確認するために、NVIDIA のビジュアル プロファイラーを使用しています。しかし、プロファイラーはホスト関数のタイミング結果を表示しません。代わりに、CUDA カーネルの CPU 時間のみが表示されます。
ホスト関数のタイミング結果をビジュアル プロファイラーのタイムラインに統合する方法はありますか?
はい、可能です。プロファイラーのマニュアルに記載されている NVIDIA ツール拡張 API を参照してください。
オーバーラップをチェックするホスト コードのセクションの周囲に範囲をマークすることができます。