私は奇妙な問題を抱えています..エミュレーションで正しく実行され、すべての結果が表示されるCUDAコードを書きました..しかし、ハードウェア「G210」で実行すると..結果メモリの結果は常に0です
カーネルに 2 つのベクトルを渡します。1 つはランダム変数で、もう 1 つはゼロに初期化されます。コードは最初のベクトルを共有メモリにコピーし、いくつかのスワッピングやその他の操作を実行してから、結果を 2 番目のベクトルに書き戻します (最初の0)
私は倍精度を使用しています、-arch sm13 フラグが使用され、すべてのメモリ割り当ても sizeof(double) を使用します..
カーネルが呼び出されているかどうかを確認しました..ここでは問題ありません..cudaMemCpyには問題はありません..
何が問題になる可能性があります.. :(なぜエミュレーションでは機能するのにHWでは機能しないのですか
私はかなり混乱しています..何かアイデアはありますか?