CUDAプログラミングガイド4.2から:
[...]すべての命令発行時に、ワープスケジューラーは、次の命令を実行する準備ができているスレッド(ワープのアクティブなスレッド)を持つワープを選択し、それらのスレッドに命令を発行します。
したがって、SMごとに同時に実行されるwaprの最大数は、ワープスケジューラ(WS)の数と同じです。
GeForce580には2.1アーキテクチャがあります。
コンピューティング機能2.xのデバイスの場合、マルチプロセッサは次のもので構成されます。[...]2つのワープスケジューラ
つまり、GPUの各SMは2つのワープ= 64スレッドを同時に実行でき、合計448スレッドになります。ただし、それよりもはるかに多くのスレッドを使用することを強くお勧めします。
ワープが次の命令を実行する準備ができるまでにかかるクロックサイクル数はレイテンシーと呼ばれ、すべてのワープスケジューラーが、そのレイテンシー期間中のすべてのクロックサイクルでワープに対して発行する命令を常に持っている場合に完全に利用されます。つまり、レイテンシが完全に「隠されている」場合です。
その他の質問について:GeForceGTX690には3072CUDAコアがあります。ただし、CUDAの場合、それぞれ1536コアの2つの別々のGPUのように見えるため、2つのGeForce 680よりも優れているわけではなく、多数のオンラインレビューから判断すると、後者は簡単にオーバークロックされます。GPUの中で最大のメモリは、nVidia Tesla M2090にインストールされています:GDDR5の6GiB(512 CUDAコア)。GeForce 6xxのようなKeplerアーキテクチャに基づくTeslasの新しいファミリがまもなくリリースされると思いますが、公式の発表は聞いていません。