c - 自動化されたアセンブリループレベルのプロファイリング

Question

アセンブリループレベルのプロファイラを知っている人はいますか?

私は gprof を使用してきましたが、gprof はループを非表示にし、関数レベルのプロファイリングですが、コードを最適化するには、何かをループレベルに移動させたいと考えています。自動化して、gprof のような出力を提供したいだけです。dtrace に行くように勧められましたが、始めるべきかどうかわかりません。とにかく誰かが私を導くことができますか？例えば

main:

pushl   %ebp     
movl    %esp, %ebp     
subl    $16, %esp     
movl    $5000000, -4(%ebp)     
movl    $0, -12(%ebp)     
movl    $0, -8(%ebp)    
jmp .L2 

.L3:   

 movl    -8(%ebp), %eax    
 addl    %eax, -12(%ebp)    
 addl    $1, -8(%ebp) 

.L2:    

movl    -8(%ebp), %eax    
cmpl    -4(%ebp), %eax    
jl  .L3     
movl    $0, %eax    
leave     ret

たとえば、gprof では、main が 1 回実行され、foo が 100 回実行されたということになります。それでも、L2 または L3 が 1M 回実行された場合、最適化に集中できるかどうかを知りたいです。私の質問があいまいな場合は、さらに説明するように依頼してくださいありがとう

score 4 · Accepted Answer

使用している OS によって異なりますが、この種のプロファイリングでは、通常、インストルメント化されたプロファイラーではなく、サンプリングプロファイラーを使用します。

Linux:ズーム
Mac OS X:インストゥルメント
Windows: VTune

score 1 · Accepted Answer

Callgrind ( Valgrindツールの 1 つで、通常はそれと共にインストールされます) を使用することをお勧めします。これにより、はるかに細かいレベルで統計を収集でき、kcachegrindツールは結果を視覚化するのに非常に適しています。

score 1 · Accepted Answer

Linux を使用している場合は、Zoomが最適です。

Windows を使用している場合は、LTProfで実行できる可能性があります。

どのプラットフォームでも、ローテク手法のランダム一時停止は信頼できます。

命令が実行された回数を調べないでください。ほとんどの場合、プログラムカウンターが検出される場所を探します。(それらは同じものではありません。) これにより、最適化の取り組みをどこに集中すべきかがわかります。

score 0 · Accepted Answer

KCachegrind は、ソースコードの各行のプロファイリング情報を提供します (このスクリーンショットを参照)。これには、CPU 時間、キャッシュミスなどが含まれます。

ただし、プロファイラー内でコードを実行すると非常に遅くなります (ネイティブより数十倍遅くなります)。

c - 自動化されたアセンブリ ループ レベルのプロファイリング

4 に答える 4

Related

Reference

c - 自動化されたアセンブリループレベルのプロファイリング