cuda - GPU カーネルから結合されていない状態でアクセスされた場合の固定ホストメモリ帯域幅のマッピング

Question

カーネルのスレッドが読み取りまたは書き込みを行うホストメモリ内に大きなint配列があり、GPU グローバルメモリ内に保持できないとします。配列の要素へのアクセスが結合されると、PCI-Express レーンの理論上の帯域幅に近づく、ホストメモリとの間のバースト読み取り/書き込みが期待できます。しかし、読み取りまたは書き込みが完全に散発的である (合体していない) 場合、帯域幅は理論上の最大帯域幅と比較してどのくらいになるでしょうか?

hereの下の図に基づいて、すべての書き込みトランザクションに対して 128 ビット長のパケットが必要です。ただし、32 ビットアドレッシング (UVA には 64 ビットマシンが必要であることを考慮) とデータサイズとして 4 バイトを想定しています。これらの仮定が正しい場合、最大帯域幅の約 4 分の 1 を書き込みに、7 分の 1 を読み取りに期待できます。私は正しいですか？これらの仮定は正しいですか？

ここに画像の説明を入力

編集

uint配列を使用して上記の質問のテストを設計および実行しました。私が得た帯域幅は、約 6.6 GB/s の帯域幅を持つ PCI-Express リンクでの大量の散発的な読み取りと大量の散発的な書き込みの両方で約 480 MB/s であり、13 から 14 倍の速度低下を示しました。どのように説明できますか？

score 1 · Accepted Answer

確実に知っているのは NVIDIA だけです。これは、メモリパーティションの 1 つからのみアクセスできるホストメモリに関係している可能性がありますが、これは、マップされた固定メモリの既知のパフォーマンス制限です。The CUDA Handbook のp127-128 から: 「マップされた固定メモリが結合されたメモリトランザクション (セクション 5.2.9) でアクセスされることが重要です。結合されていないメモリトランザクションのパフォーマンスペナルティは 6x から 2x の範囲です。ただし、SM 2.x でもそしてそれ以降の GPU では、そのキャッシュが合体を時代遅れの考慮事項にするはずでしたが、そのペナルティは重大です。」

最近のハードウェアでは、ペナルティがさらに高くなるようです。

cuda - GPU カーネルから結合されていない状態でアクセスされた場合の固定ホスト メモリ帯域幅のマッピング

編集

1 に答える 1

Related

Reference

cuda - GPU カーネルから結合されていない状態でアクセスされた場合の固定ホストメモリ帯域幅のマッピング