この質問は少し一般的すぎるかもしれませんが、誰かが同じ問題を経験しているかもしれません。
私は推力を使った小さなcudaプログラムを持っていて、すべてがうまくいっています。期待どおりに動作します。
しかし、同じプログラムを別のマシンに移植すると、プログラム全体のパフォーマンスは元のマシンよりも約10倍から100倍遅くなります。2台目のマシンのハードウェアはより高速である必要があるため(GTX265ではなくGTX480)、問題は2台目のマシン自体にあると思います。誰かが何がうまくいかないかもしれないという考えを持っていますか?