新しい ARM プロセッサには、PLD および PLI 命令が含まれています。
非順次メモリ アクセス パターンを持つタイトな内部ループ (C++ で) を作成していますが、コードが自然に完全に理解できるパターンです。現在のメモリ位置を処理しながら次の位置をプリフェッチできれば、大幅な高速化が期待できます。これは、実験に値するように試すのに十分な速さであると期待できます!
私はARMの新しい高価なコンパイラを使用していますが、気になるこの特定のループは言うまでもなく、どこにもPLD命令が含まれていないようです。
C++ コードに明示的なプリフェッチ命令を含めるにはどうすればよいですか?