CUDA の最小二乗最適化をプログラムしました。1 つのデータセットを最適化すると、問題なく動作します。さらに使用するには、同時に 3 つのデータセットを使用できるように実装する必要があります。このコードは、3 つのカーネルと、その間にデータを準備するためのホスト コードなどで構成されています。単純な実装では、データ セットごとにプログラムを 3 回呼び出します。
しかし、私の仕事は、それを同時に 3 回実行する方法を見つけることです。
openmp や posix などのライブラリを使用するときに、プログラムまたは並行カーネルを 3 つのホスト スレッドから同時に呼び出すことは可能ですか、それとも良い考えですか? または、独自のスケジューラーをプログラムする必要がありますか?