このドキュメント: http://infocenter.arm.com/help/topic/com.arm.doc.ddi0301g/DDI0301G_arm1176jzfs_r0p7_trm.pdf
21-25 ページ (pdf ページ 875) では、VFP ユニットの組み立て手順のスループットとレイテンシのタイミングが示されています。
これらの数値は vectorsize に依存していませんか?
1: スループットが 1 でレイテンシが 8 の FMULS を考えてみましょう。前の関数で現在計算されていないレジスタを使用しない場合、各サイクルで新しい FMULS 操作を開始できるということですか? 例えば:
FMULS s8, s16, s20
FMULS s12, s21, s25
それらは次々に実行されますか?
2: 1 つの引数が前の計算に依存する 2 つの FMULS 関数が前後にある場合はどうなりますか?
FMULS s8, s16, s20
FMULS s12, s21, s8
VFP は 2 番目の命令の処理を開始する前に 8 サイクル待機しますか?
3: 4 つの要素を持つ vectormode で、2 番目の FMULS 命令で 1 つを除くすべての入力レジスタが使用可能であるとします。何が起こるか?
4: sqrt と除算: sqrt または除算演算は、19 サイクルの間、後続の演算の開始を妨げますか?
ありがとう!