私は次の投稿を読みました
FortranからcuBLASルーチンを呼び出すのと同じようなことをしたいと思います。
基本的に、大きな行列を3 x 3
ブロックに分割し、ループの各ステップで分割を変更します。現時点では、個々のサブブロックごとにポインターを割り当て/解放し、各ステップでデバイスとの間でマトリックスの関連部分をコピーします。それは私が排除したいと思っている多くのオーバーヘッドを生み出します。それは実行可能ですか?
私は次の投稿を読みました
FortranからcuBLASルーチンを呼び出すのと同じようなことをしたいと思います。
基本的に、大きな行列を3 x 3
ブロックに分割し、ループの各ステップで分割を変更します。現時点では、個々のサブブロックごとにポインターを割り当て/解放し、各ステップでデバイスとの間でマトリックスの関連部分をコピーします。それは私が排除したいと思っている多くのオーバーヘッドを生み出します。それは実行可能ですか?