私はCUDAアプリケーション(知っておく必要がある場合はこれ)をOpenCLに変換する作業をしています。元のアプリケーションはCスタイルのCUDAAPIを使用しており、結果を読み取る際の自動ビジーウェイトを回避するために単一のストリームを使用しています。
ここで、OpenCLコマンドキューがCUDAストリームによく似ていることに気付きました。しかし、デバイスの読み取りコマンド、および同様に書き込みコマンドとカーネル実行コマンドでは、イベントのパラメーターにも気づきます。だから私は、デバイスの書き込み、いくつかのカーネル(たとえば、あるカーネルへの1回の呼び出し、次に別のカーネルへの100回の呼び出し)、およびデバイスの読み取りをすべて順番に実行するのに何が必要か疑問に思っています。
- それらを同じキューに順番にエンキューした場合、CUDAの場合と同じように順番に実行されますか?
- それが機能しない場合は、イベントをデイジーチェーン接続して、各呼び出しの待機リストを前の呼び出しのイベントにすることができますか?
- または、依存関係などのN ^ 2検索がある場合のように、以前のすべてのイベントを各呼び出しの待機リストに追加する必要がありますか?
- または、 AMDのチュートリアルで述べられているように、呼び出しごとに個別にevent.wait()を実行する必要がありますか?
ありがとう!