コンピューティング エンジン キューに入れることができる非同期カーネル起動の数に制限があるようです。この制限を超えると、ホストがブロックされ、GPU-CPU の同時実行性が失われます。これは、CUDA プログラミング ガイドには記載されていません。
- コンピューティング エンジン キューに入れることができる非同期カーネル起動の最大数はいくつですか?
- この最大数は、起動されるカーネルに何らかの形で依存しますか?
- CPU がカーネルの起動をコンピューティング エンジンのキューに入れるのにかかる時間は、起動するカーネルによって異なりますか?
- コピー エンジン キューに入れることができる非同期 memcpy の最大数はいくつですか?