何度も呼び出されている CUDA を介していくつかの関数を並列化しようとしています。毎回同じ行列を扱います。この行列を GPU メモリに保存し、関数が呼び出されたときに、ベクトルを GPU にアップロードし、それを行列で乗算して結果を返したいと考えています。私は C++ テンプレート スタイルを好むので、推力の方が優先されます。
これを行うためのいくつかの機能と、可能であればいくつかの小さなサンプルをお勧めします。コードを提供していないのは、それが秘密だからではなく、その複雑さと巨大なサイズのためです。