GPU 上の Cuda で並列プログラムが CPU 上の同様の逐次プログラムよりも高速である場合、逐次プログラムは Compiler Optimizer (gcc -O2) でコンパイルする必要がありますか?
GPUでプログラムを並列化しました。コンパイラ オプティマイザーを使用しない場合の CPU 実装と比較して、18 倍高速化されています。しかし、オプション -O2 を nvcc コンパイラに追加すると、速度アップ率が 8 に低下します。
GPU 上の Cuda で並列プログラムが CPU 上の同様の逐次プログラムよりも高速である場合、逐次プログラムは Compiler Optimizer (gcc -O2) でコンパイルする必要がありますか?
GPUでプログラムを並列化しました。コンパイラ オプティマイザーを使用しない場合の CPU 実装と比較して、18 倍高速化されています。しかし、オプション -O2 を nvcc コンパイラに追加すると、速度アップ率が 8 に低下します。