0

最新のプロセッサは、メモリ アクセスと計算をオーバーラップさせます。Intel Xeon Phi でこのオーバーラップを調査したいと考えています。これを行う従来の方法は、コードを変更して、このスライドで GPU に使用されているアプローチのように、メモリのみと計算のみの 2 つのバージョンを作成することです: http://www.nvidia.com/content/GTC-2010/ pdfs/2012_GTC2010.pdf .

しかし、私のプログラムには複雑な制御フローとデータの依存関係があります。このような 2 つのバージョンを作成するのは非常に困難です。

この重複を測定する便利な方法はありますか? Vtune プロファイルを検討していますが、どの HW カウンターを見ればよいかまだわかりません。

4

0 に答える 0