私は、アルゴリズムのシリアルバージョンとパラレルバージョンを比較する必要がある比較研究に取り組んでいます(正確なダウンロードリンクはここにあるNSGA-IIアルゴリズム)。NSGA-IIはヒューリスティックな最適化手法であるため、生成された最初のランダムな母集団に依存します。CPUとGPUを使用して生成された初期の母集団が異なる場合、公平な高速化の調査を行うことはできません。
私は、1.3の計算能力を持つNVIDIA-TESLA-C1060カードを持っています。この回答とこのNVIDIAドキュメントによると、sm_13デバイスが常にIEEE-754準拠のfloat(単精度)値を生成することは期待できません。つまり、現在のデバイスでは、対応するシリアルに対応するCUDAプログラムの公平な高速化調査を実施できません。
私の質問は、Fermiアーキテクチャに切り替えることで問題は解決するでしょうか?