“papi”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

167 参照

c - Papi を使用して retval、cleanup、destroy を取得できませんでした

papi を使用してテストしようとしていますが、エラーが発生する理由がわかりません。私は彼らのためにオンラインで何かを見つけることができませんでした. コードは以下です

PAPIと Cを使用しています。

出力ファイルには、以下が表示されます。

ret、ret2、クリーンアップ、および破棄が失敗した理由がわかりません。なんで？

c papi

2015-03-10T16:58:50.197

0 投票する

0 に答える

577 参照

cpu - Xeon Phi のコア使用率を 10Hz で監視するにはどうすればよいですか?

Xeon Phi (Knights Corner、インオーダープロセッサ) の 60 コアすべての使用率を、比較的高い周波数で、たとえば少なくとも 0.1 秒ごとに測定/監視しようとしてきました。これは 10Hz になります。

最新の PAPI ライブラリを試しました。ただし、完了した命令のカウンターである PAPI_TOT_INS のみをサポートします。0.1秒ごとに発行される命令に関連する何かが実際に必要であり、完了していないため、これは機能しません。異なるサイクルで発行されたいくつかの命令は、同じサイクルで終了する場合があります。命令の発行は、コアが停止しているかどうかによって影響を受けます。

「top」や「perf」などの他のコマンドは 1 Hz で動作しますが、これは私の測定には遅すぎます。より高い周波数が必要です。また、測定をコードの重要なフェーズと同期させる必要もあります。そのため、インテル Vtune プロファイルも機能しません。

Xeon Phi に関する指示の問題や、それらの使用に関連するその他の活動を監視する方法はありますか? これらのハードウェアカウンターがあることは理解していますが、それらを読み取るのは非常に難しいように思えます。各スレッドの CPU 時間を測定することで、この使用率を推測できるでしょうか?

ありがとう。

2015-03-18T02:52:59.593

0 投票する

1 に答える

3970 参照

papi - papi_avail: 利用可能なイベントはありません

PAPIに入りたいです。Debian GNU/Linux でバージョン 5.3.2.0 を使用しています。papi_availハードウェアイベントが利用できないことを教えてくれます：

ドキュメントにも FAQ にも何も見つかりませんでした。ここで何が悪いのか誰か知っていますか？

papi

2015-08-31T09:37:44.837

0 投票する

0 に答える

71 参照

intel - Intel trace Collector&Analyzer と PAPI で GET COUNTERS

皆さん、インテルトレースコレクターと PAPI を使用してカウンターを取得しようとしていますが、(インテルアナライザーで開いた) stf トレースファイルにはカウンターがありません。

コレクターガイドに従って、収集したいカウンターを追加して conf ファイルを編集しました。

COUNTER "PAPI_FP_OPS" ON
カウンター「PAPI_BR_CN」オン
COUNTER "PAPI_TOT_INS" ON

そして、このファイルを指すように VT_CONFIG 環境変数を設定しました。

コンパイル行は次のとおりです。

mpiifort -r8 -O3 -xHost -fp-model ソース -traceback file.F90 -L$VT_SLIB_DIR -L. -lVT -L$PAPI_ROOT/lib64 -lpapi $VT_ADD_LIBS -o file.exe

なにが問題ですか？

前もって感謝します。

intel papi

2015-10-01T14:57:24.787

0 投票する

2 に答える

639 参照

c++ - コードをベクトル化する際のキャッシュミス数の増加

以下に示すように、SSE 4.2 と AVX 2 を使用して 2 つのベクトル間の内積をベクトル化しました。コードは、-O2 最適化フラグを指定して GCC 4.8.4 でコンパイルされました。予想どおり、パフォーマンスは両方で改善されました (そして、SSE 4.2 よりも AVX 2 の方が高速でした) が、PAPI を使用してコードをプロファイリングしたところ、ミスの総数 (主に L1 と L2) が大幅に増加したことがわかりました。

ベクトル化なし:

SSE 4.2 の場合:

AVX 2 の場合:

私のコードに何か問題があるのでしょうか、それともこの種の動作は正常ですか?

AVX2 コード:

SSE 4.2 コード:

ベクトル化されていないコード:

編集:ベクトル化されていないコードのアセンブリ:

Edit2: 以下は、より大きな N (x ラベルの N と y ラベルの L1 キャッシュミス) のベクトル化されたコードとベクトル化されていないコードの間の L1 キャッシュミスの比較を見つけることができます。基本的に、より大きな N の場合、ベクトル化されたバージョンでは、ベクトル化されていないバージョンよりも多くのミスが発生します。

c++caching profiling vectorization papi

2015-12-03T14:50:18.293

0 投票する

1 に答える

84 参照

powerpc - Power8 での PM_DATA_ALL* イベントと PM_DATA* イベントの違いは何ですか?

を使用して Power8 プロセッサのメモリパフォーマンスを評価しているときに、イベントとperfの違いを理解するという問題が発生しました。ほとんどのカウンターは両方のバージョンに存在しますが、oprofile のドキュメントとの説明は同じです。たとえば、次のようになります。PM_DATA_ALL_*PM_DATA_*papi_native_avail

PM_DATA_FROM_LMEM

MMCR1[16] が 1 の場合、デマンドロードのみ、またはデマンドロードとプリフェッチにより、プロセッサのデータキャッシュがローカルチップのメモリからリロードされました。

私はいくつかのデータを測定することによって違いを理解します. 十分な大きさのタスクを提供すると、*_ALLバージョンがより高い値を持つという予想される違いを観察できます。を使用したメジャーでのカウンターの多重化の概念を理解していperfます。

では、実際にこれらのイベントのすべてとは何でしょうか?

powerpc perf oprofile papi

2016-01-24T21:38:52.380

0 投票する

0 に答える

123 参照

c - papi_native_avail を適切に使用して、BG/Q システムでネットワークパフォーマンス監視イベントを取得するにはどうすればよいですか?

BG Torus 相互接続を使用して BG/Q システムでネットワークパフォーマンスカウンターデータを収集しようとしています。これが最も推奨される方法のように思われるため、私は PAPI を使用しています。他のオプションは bgpm ライブラリであり、このシステムにはインストールされていないと思います。(locate bgpm私には何もくれませんでした。)

システムで利用可能なすべてのカウンターの名前を取得しようとしています。を実行するpapi_native_availと、一連のイベントが返されます。たとえば、ネットカテゴリからの抜粋を次に示します。

papi_native_availセグメンテーション違反ですが、それは関係ないと思います。

したがって、この時点での私の理解では、イベント名を使用してを使用してイベントコードを取得できるはずですPAPI_event_name_to_code()が、これは機能していないようです。これらは、その関数が期待するイベント名ではないと推測しています。だから誰かが説明できます：

BG/Q のすべてのネットワークイベントはどこにありますか?
これらのイベントのコードを取得するにはどうすればよいですか?

完全を期すために、ここに私のコードと出力があります：

出力：

c performance papi

2016-02-18T03:46:53.590

問題タブ [papi]

Reference