私はcudaを学んでいますが、これまでのところ、cudaにはcudaMalloc()グローバルオブジェクトにメモリを割り当てる機能があることを知りました。しかし、現在、いくつかの行列乗算コードでcudaMemcpy()、オブジェクトをホストからデバイスに、またはその逆にコピーするという別の関数が使用されていることがわかりました。しかし、なぜそれが必要なのかわかりませんか?はグローバル メモリを割り当てているためcudaMalloc()、すべてのデバイス コアがアクセスできるはずですよね。
私の誤解はどこにありますか?