アセンブリ ループ レベルのプロファイラを知っている人はいますか?
私は gprof を使用してきましたが、gprof はループを非表示にし、関数レベルのプロファイリングですが、コードを最適化するには、何かをループ レベルに移動させたいと考えています。自動化して、gprof のような出力を提供したいだけです。dtrace に行くように勧められましたが、始めるべきかどうかわかりません。とにかく誰かが私を導くことができますか?例えば
main:
pushl %ebp
movl %esp, %ebp
subl $16, %esp
movl $5000000, -4(%ebp)
movl $0, -12(%ebp)
movl $0, -8(%ebp)
jmp .L2
.L3:
movl -8(%ebp), %eax
addl %eax, -12(%ebp)
addl $1, -8(%ebp)
.L2:
movl -8(%ebp), %eax
cmpl -4(%ebp), %eax
jl .L3
movl $0, %eax
leave ret
たとえば、gprof では、main が 1 回実行され、foo が 100 回実行されたということになります。それでも、L2 または L3 が 1M 回実行された場合、最適化に集中できるかどうかを知りたいです。私の質問があいまいな場合は、さらに説明するように依頼してください ありがとう