1

Intel Vtune Amplifier XE 2013 を使用して、マルチコア CPU で実行されている並列プログラムをプロファイリングしています。特に、OpenCL で記述され、Xeon Phi で実行されています。Vtune によってもたらされた結果の正確な解釈はどうあるべきだろうか、つまり、

  1. 単一のスレッドまたはコア全体によって収集されたパフォーマンス カウンターの値ですか? (Xeon Phi の場合のように、CPU に多くのコアがあり、多くのスレッドをコアで同時に実行できると仮定します)。
  2. Vtune はマルチコア CPU でどのようにサンプリングしましたか? 単一のコアでサンプリングして報告したか、それとも多数のコアでサンプリングして平均をとったか?
4

2 に答える 2

0

答えは、場合によるということです。サイクルや L1 ミスなどの一部のカウンターはスレッドごとです。しかし、コアごとのものもあります。したがって、キャプチャするカウンターによって異なります。

于 2013-06-05T15:16:51.780 に答える