cuda - cudaMalloc() がグローバルメモリを割り当てる場合、なぜ cudaMemcpy() が必要なのですか?

Question

私はcudaを学んでいますが、これまでのところ、cudaにはcudaMalloc()グローバルオブジェクトにメモリを割り当てる機能があることを知りました。しかし、現在、いくつかの行列乗算コードでcudaMemcpy()、オブジェクトをホストからデバイスに、またはその逆にコピーするという別の関数が使用されていることがわかりました。しかし、なぜそれが必要なのかわかりませんか？はグローバルメモリを割り当てているためcudaMalloc()、すべてのデバイスコアがアクセスできるはずですよね。

私の誤解はどこにありますか？

score 8 · Accepted Answer

この資料のスライド 10、11、12 をご覧ください。基本的な処理の流れを示しています。通常、カーネル呼び出しの前に表示される cudaMemcpy は、スライド 10 のアクティビティに対応します。カーネル呼び出し自体は、スライド 11 で表されます。スライド 12 は、カーネル呼び出しの後に発生する cudaMemcpy を表します。GPUcudaMallocは CPU に似てmallocいます。スペースを割り当てるだけで、データを入力しません。を使用して GPU にスペースを割り当てたら、を使用して GPUcudaMallocにデータをコピーする必要がありますcudaMemcpy。この場合、「グローバルメモリ」はデバイス上のメモリを指します。つまり、スライド 10、11、および 12 の右側にあります。デバイスカーネルは、デバイス上にあるデータ、つまり、スライド 10、11、および 12 の右側にある DRAM に移動されたデータのみを処理できます。そして12。

score 5 · Accepted Answer

cudaMalloc() は、未定義の初期値を持つ GPU メモリ上のメモリのチャンクのみを提供します。ホストまたはデバイスのどこかから目的のメモリコンテンツをコピーする必要があります。

score 1 · Accepted Answer

malloc() は、ホスト、つまり CPU に動的メモリを割り当てます。デバイスにグローバルメモリを割り当てるには、cudaMalloc() を呼び出す必要があります。GPU を使用してデータを操作するには、ホールデータをグローバルメモリに転送する必要があります。cudaMalloc() はメモリを割り当てるだけで、デバイスメモリにデータをコピーしません。したがって、データをホストメモリからデバイスメモリにコピーするには、cudaMemcpy() を呼び出す必要があります。

score 0 · Accepted Answer

すべてのメモリ割り当てとコピーは、ホストからのみ実行できます。

すべてのGPUアクティビティについて、メモリはデバイス（GPU）に割り当てられ、ホスト（CPU）から開始する必要があります。

その後、ホストからのメモリが計算/処理のためにデバイス（Memcpy）に転送されます。

その後、カーネルが計算のために呼び出されます。

次に、デバイスで計算された結果がMemcpyを介してホストに転送されます。

score 0 · Accepted Answer

CPU で実行されるコードは、その (ホスト) メモリに割り当てられたバッファにのみアクセスできますが、GPU コード (CUDA カーネル) は、デバイス (GPU) メモリ内のメモリにのみアクセスできます。行列乗算の例で入力行列を初期化するコードは CPU 上で実行されるため、ホストメモリ内でのみ実行できます。次に、デバイスメモリに割り当てた空間にこれらのマトリックスをコピーするために cudaMemcpy を呼び出す必要があります。これは、そこに直接書き込むことができないためです。次に、CUDA カーネルが起動され、デバイスメモリ内の行列に対して処理が実行され、結果がデバイスメモリ内の別のバッファに格納されます。cudaMemcpy は、カーネルが結果をデバイスメモリからホストメモリにコピーするのを完了すると、再度使用されます。これにより、結果をホストコードで再度使用できるようになります (たとえば、結果を表示または保存するため)。

cuda - cudaMalloc() がグローバル メモリを割り当てる場合、なぜ cudaMemcpy() が必要なのですか?

5 に答える 5

Related

Reference

cuda - cudaMalloc() がグローバルメモリを割り当てる場合、なぜ cudaMemcpy() が必要なのですか?