windows - OS/アプリケーションから CPU キャッシュ/メモリをプロファイリングしていますか?

Question

パフォーマンスを分析するために、CPU キャッシュ (L2、L3、場合によっては L1) とメモリを本質的にプロファイリングできるソフトウェアを作成したいと考えています。

ソフトウェアがキャッシュコンテンツにアクセスできないため、これは実行不可能だと考えるのは正しいですか?

私の質問の別の言い方: OS/アプリケーションレベルから、どのデータがキャッシュ/メモリにロードされたかを知る方法はありますか?

編集: オペレーティングシステム Windows または Linux および CPU Intel Desktop/Xeon

score 8 · Accepted Answer

Intel の PMU、つまり Performance Monitoring Unit を参照してください。一部のプロセッサには 1 つがあります。RDMSRこれは、およびWRMSR命令を使用して、キャッシュミスなどのイベントをカウントするようにプログラムできる一連の特殊目的レジスター (Intel はモデル固有レジスターまたは MSR と呼んでいます) です。

これは、 i7 および Xeon 5500 でのパフォーマンス分析に関するドキュメントです。

Intel のPerformance Counter Monitorを確認することをお勧めします。これは、基本的に PMU を抽象化するいくつかのルーチンであり、C++ アプリケーションで使用して、キャッシュミスを含むいくつかのパフォーマンスメトリックをライブで測定できます。また、スタンドアロンで使用するための GUI/コマンドラインツールもいくつかあります。

どうやら、Linux カーネルには MSR を操作する機能があります。

PMU を使用する他のユーティリティ/API もあります: perf、PAPI。

score 4 · Accepted Answer

キャッシュのパフォーマンスは、通常、ヒット率とミス率で測定されます。

これを行うための多くのツールがあります。Valgrind がキャッシュプロファイリングを行う方法を確認してください。

また、キャッシュのパフォーマンスは通常、プログラムごとに測定されます。適切に作成されたプログラムは、キャッシュミスが少なくなり、キャッシュパフォーマンスが向上します。不適切に作成されたコードでは、その逆になります。

実際のキャッシュ速度を測定することは、ハードウェアメーカーにとって頭の痛い問題です。この値を知るには、メーカーのマニュアルを参照してください。

Callgrind / Cachegrindの組み合わせは、キャッシュのヒット/ミスを追跡するのに役立ちます

score 1 · Accepted Answer

これにはいくつかの例があります。PAPI を使用して動作するオープンソースのプロファイラーである TAU も使用できます。

ただし、キャッシュ統計を測定するコードを書きたい場合は、PAPI を使用してプログラムを作成できます。PAPI を使用すると、ユーザーはシステムアーキテクチャを知らなくてもハードウェアカウンタにアクセスできます。PMU はモデル固有のレジスタを使用するため、使用するレジスタの知識が必要です。

Perf は L1 と LLC (L2) の測定を可能にし、一方 Cachegrind はユーザーが L1 と LLC (L2 または L3 のいずれか最高レベルのキャッシュ) を測定できるようにします。Cachegrind はプログラムを約 10 倍遅く実行するため、高速な結果が必要ない場合にのみ Cachegrind を使用してください。

windows - OS/アプリケーションから CPU キャッシュ/メモリをプロファイリングしていますか?

3 に答える 3

Related

Reference