gfor 構造体が CUDA スレッドを割り当てる方法を教えてください。ご存じのとおり、Arrayfire では gfor を使用して並列計算を行うことができます。しかし、CUDA のスレッドは限られているので、GPU ハードウェア アーキテクチャに従って gfor 構造を再設計する必要があるため、Arrayfire コードを改善するにはどうすればよいか知りたいです。
gfor 構造体が CUDA スレッドを割り当てる方法を教えてください。ご存じのとおり、Arrayfire では gfor を使用して並列計算を行うことができます。しかし、CUDA のスレッドは限られているので、GPU ハードウェア アーキテクチャに従って gfor 構造を再設計する必要があるため、Arrayfire コードを改善するにはどうすればよいか知りたいです。