Cortex A8 TRM から:
「システム設計に柔軟性を提供する64ビットまたは128ビットのAXIインターコネクトに接続するようにプロセッサを構成できます」
リンゴとオレンジを比較しているのかもしれませんが、NEON は必要ですか? ldrb/strb の代わりに、ldrd/strd または ldm/stm を使用して 64 ビット転送を取得できます。ARM/AXI は、先を見越して小さな転送を大きな転送にグループ化するのに十分スマートです。たとえば、2 つの 32 ビット転送を 1 つの 64 ビットにまとめることができます。しかし、私はそれに頼りません。ldr/str または ldrd/strd に変更してもパフォーマンスが向上しないことがわかった場合にのみ言及します。
読み取りまたは書き込みループを分離 (データ処理なし) し、バイト対ワード対ダブルワードを試しましたか? 単語からバイトを抽出するコードが、バスの節約を圧倒している可能性があります。
これはどのような種類のメモリですか? これはオンチップなのかオフチップなのか、AXI (ARM) クロック速度に対するこのメモリの速度は?
このリージョンでデータ キャッシュを有効にしていますか? それがミュート ポイントである可能性がある場合、最初のバイト読み取りは最適なデータ バス サイズを使用してキャッシュ ライン フィルを実行し、そのキャッシュ ライン内の後続の読み取りは AXI バスに到達せず、ましてやターゲット メモリに到達しません。同様に、書き込みはキャッシュまでしか行わず、後で最適化された幅の広いバスでターゲットに送信する必要があります。キャッシュ/書き込みバッファの構成方法によって異なります。