TCC モードのテスラ (フェルミまたはケプラー) と WDDM の Geforce (同世代) を比較しますか?
私が書いたプログラムは、カーネルを繰り返し起動する必要があるため、カーネルのオーバーヘッドに非常に深刻な問題があります。オーバーヘッドが非常に大きいため、多くのカーネルをまとめてマージし、カーネルの起動を減らすためにメモリスペースを交換する必要がありますが、これまでのところしか機能しません。 GPUメモリストレージの壮大なサイズに。
TCC モードはオーバーヘッドが少ないと聞きましたが、オーバーヘッドのパフォーマンスを CPU レベルにまで引き上げることはできますか?
いくつかのベンチマークを読んだので、少なくとも Geforce 280 GTX の場合、カーネル呼び出しのオーバーヘッドは CPU の関数呼び出しのオーバーヘッドよりも何千倍も長く、大量の繰り返し反復を必要とするメソッドの場合、ここで大きなパフォーマンスの違いが生じます。