私はいくつかの結果を読んでいました。そして、彼らが 5120 のワークグループと 1 のローカル サイズを使用していることがわかりました。OpenCl についての知識が限られているため、次の記述が正しいかどうか疑問に思っていました。
GPU でわかるように、最初のテストには 5120 個のワークグループがあり、それぞれに 1 つのワークアイテムがあります。これは、並列に実行されるスレッドが、マシンにある計算ユニットの量に制限されることを意味します。たとえば、GPU に 20 のコンピューティング ユニットがある場合、並列に動作する最大 20 のスレッドしか存在できません。ただし、ローカル サイズを 2 に増やすと、2 倍の量のスレッドが同時に実行されます
OpenClに関するいくつかの情報を読むと、それはほぼ正しいようです。セカンドオピニオンが必要ですが。