CUDA で連立方程式を解くアプリケーションがあります。各スレッドが最大 4 つの解を見つけることができることは確かですが、ホストにコピーして戻すにはどうすればよいですか?
すべてのスレッドが 4 つのソリューション (ソリューションごとに 4 つの double) を格納するのに十分なスペースを持つ巨大な配列と、スレッドごとのソリューションの数を持つ別の配列を渡していますが、これは単純なソリューションであり、カーネルの現在のボトルネックです。
私はこれを最適化するのが本当に好きです。主な問題は、スレッドごとに可変数のソリューションを単一の配列に連結することです。