動作のデータレートはcudaMemcpy
、CPUからGPUまで実行するために割り当てられたPCI-e 3.0(または2.0)レーンの数に大きく影響されます。2つのGPUを含むNvidiaデバイスでPCI-eレーンがどのように使用されるのか知りたいです。
Nvidiaには、1つのPCI-eデバイスに2つのGPUを搭載した製品がいくつかあります。例えば:
- GTX 590には、2つのFermiGF110GPUが含まれています
- GTX 690には、2つのKeplerGK104GPUが含まれています
PCI-e 16
多くの新しいグラフィックカードと同様に、これらのデバイスはスロットにマウントされます。GPUを1つだけ含むカードの場合、GPUは16のPCI-eレーンを使用できます。
2つのGPUを含むデバイス(GTX 690など)があり、GPUの1つだけでコンピューティングジョブを実行している場合、16のPCI-eレーンすべてが使用されている1つのGPUにサービスを提供できますか?
これをアスキーアートとして表示するには...
[ GTX690(2x GF110)] ------16PCI-eレーン----- [ CPU ]
CPUがそれぞれ1つのGPUを持つ2つのカードに接続されている場合については話していません。(次の図のように)
[ GTX670(1x GK104)] ------PCI-eレーン----- [ CPU ] ------PCI-eレーン----- [ GTX670(1x GK104)]