PyCUDAには、そのすべての欠点がありますが、通常、非常に優れた例が提供されており、wikiからダウンロードできます。しかし、複数のデバイスにワークロードを動的に割り当てるPyCUDAの方法を示す例やドキュメント(または大まかなグーグル検索)には何も見つかりませんでした。
誰かが私が何をすべきかについて私にヒントを与えるか、私に例を示すことができますか?
私の頭に浮かんだアイデアの1つは、マルチプロセッシングを使用して、それぞれが1つのデバイスに関連付けられたN個のプロセスのプールを生成し、クラスが呼び出されたときです(すべてのGPU関数は別のクラスにありますが、おそらく最良のアイデアではありませんが、動作します)それはラウンドロビンのマルチプロセスです。これはどれくらい良い/遅れたアイデアですか?
PS私の開発マシンは1GPUで、テストマシンは4 GPUであるため、動的な数のデバイスを処理できるソリューションが必要です(異なるコンピューティング機能であることも役に立ちませんが、それが寿命です)