Intel Vtune Amplifier XE 2013 を使用して、マルチコア CPU で実行されている並列プログラムをプロファイリングしています。特に、OpenCL で記述され、Xeon Phi で実行されています。Vtune によってもたらされた結果の正確な解釈はどうあるべきだろうか、つまり、
- 単一のスレッドまたはコア全体によって収集されたパフォーマンス カウンターの値ですか? (Xeon Phi の場合のように、CPU に多くのコアがあり、多くのスレッドをコアで同時に実行できると仮定します)。
- Vtune はマルチコア CPU でどのようにサンプリングしましたか? 単一のコアでサンプリングして報告したか、それとも多数のコアでサンプリングして平均をとったか?