memory-management - ホストとデバイスの両方からアクセス可能な CUDA メモリ割り当て

Question

ホスト (CPU) とデバイス (GPU) の両方からアクセスできるメモリブロックを割り当てる方法を見つけようとしています。cudaHostAlloc() 関数を使用して、CPU と GPU の両方にアクセスできるページロックメモリを割り当てる以外に、そのようなメモリブロックを割り当てる方法はありますか? コメントありがとうございます。

score 2 · Accepted Answer

ホストとデバイスがメモリを「共有」する唯一の方法は、新しいゼロコピー機能を使用することです。これは、GT200 アーキテクチャカードと一部の新しいラップトップカードで利用できます。お気づきのように、このメモリは、ページがロックされるように cudaHostAlloc で割り当てる必要があります。代替手段はなく、この機能でさえ古い CUDA 対応カードでは利用できません。

ホストからデバイスへの転送を管理するための簡単な (おそらくパフォーマンスの低い) 方法を探しているだけなら、Thrust ライブラリをチェックしてください。デバイスにメモリを割り当てることができるベクトルクラスがありますが、ホスト上にあるかのようにホストコードから読み書きできます。

もう 1 つの方法は、転送を管理する独自のラッパーを作成することです。

score 1 · Accepted Answer

を使用しない限り、GPU と CPU の両方がアクセスできるバッファーを割り当てる方法はありませんcudaHostAlloc()。これは、固定されたメモリを CPU に割り当てる必要があるだけでなく (CUDA の外部で行うこともできます)、メモリを GPU (より具体的にはコンテキストの) 仮想メモリにマップする必要があるためです。

ディスクリート GPU では、ゼロコピーによってバス転送が発生するのは事実です。ただし、アクセスが適切に結合されていて、データを 1 回だけ消費する場合は、データをデバイスに転送してから 2 段階でマルチプロセッサに読み込むという代替手段があるため、依然として効率的です。

score 0 · Accepted Answer

いいえ、GPU メモリにバッファをアップロードする「自動方法」はありません。

memory-management - ホストとデバイスの両方からアクセス可能な CUDA メモリ割り当て

3 に答える 3

Related

Reference