2 つの非正方行列 (2000,100)、(100,100) で行列の乗算を実行したいのですが、Nvidia の例のようにブロック部分行列を使用しようとしましたが、結果が間違っています。ここで解決済みの方法を見つけました。 CUDA の非正方行列乗算 はゼロ パディングを使用するため、ブロック サイズを 16 に変更しますが、ワーク グループ サイズが正しくありません。pyopencl を使用し、Blas を使用できません。
2 つの非正方行列 (2000,100)、(100,100) で行列の乗算を実行したいのですが、Nvidia の例のようにブロック部分行列を使用しようとしましたが、結果が間違っています。ここで解決済みの方法を見つけました。 CUDA の非正方行列乗算 はゼロ パディングを使用するため、ブロック サイズを 16 に変更しますが、ワーク グループ サイズが正しくありません。pyopencl を使用し、Blas を使用できません。