cuda でプログラムを書いており、データ転送のオーバーヘッドを削減しようとしています。行列の乗算に cuBLAS ライブラリを使用しており、値の範囲が 0 ~ 255 の 30.000.000 の数値を送信する必要があります。
最終製品を float にしたいので、今は float として送信しています。これは、1 バイトに収まることを考えると、非常にコストがかかります。
cuBLAS ライブラリまたはその他の高速数学ライブラリを使用しているときに、それらをバイトとして送信し、フロートとして型キャストする方法はありますか? または、何らかの方法でフロートとして整列するように GPU に指示しますか?