ArrayFire for Python で複数のホスト スレッドを使用することについて、初心者から質問があります。現在、Open MPI と mpi4py を使用して並列化された、高度に並列化された CPU のみのコードがあります。各 CPU スレッドは大規模な行列乗算を実行し、多くの場合、複数のスレッドが同時に乗算されます。ArrayFire を使用して単一の GPU で行列乗算を実行することにより、パフォーマンスを向上させたいと考えています。
複数の CPU ホスト スレッドが行列乗算ジョブを GPU に送信し、GPU にこれらの乗算を同時に実行させることができるかどうかを把握しようとしています。それとも、各 CPU ホスト スレッドは、GPU がアイドル状態になるまで、乗算ジョブを GPU に送信する必要がありますか?
GPU コンピューティングの言語に精通していないため、答えを見つけるのに苦労しています。特定の GPU がカーネルの同時実行をサポートしているというのが私の印象ですが、私たちの GPU (Radeon Vega 10) がサポートしているかどうかを判断することはできませんでした。
ArrayFire for Python でこのようなことを行う方法に関する一般的なヒントやリソースをいただければ幸いです。