Parallel Nsight 2.2を使用して、CUDA4.2で記述されたコードのプロファイルを作成しました。結果は次のとおりです。分岐効率=0.9、制御フロー実行効率=0.26。
ユーザーガイドから、
Branch Efficiency=({Branches} - {Diverged Branches}) / {Branches}
Control Flow Efficiency={Thread Instructions Executed} / {Instructions Executed} / {Warps Size}
私は混乱しています:より高い分岐効率は、ワープ内で同じ命令を実行するより多くのアクティブなスレッドがあり、したがってより高い制御フロー効率があることを意味しませんか?そして、高い分岐効率と低い制御フロー効率は何を示していますか?コメントありがとうございます。