ARMv7コアにイメージをコピーしたい。単純な実装は、行ごとにmemcpyを呼び出すことです。
for(i = 0; i < h; i++) {
memcpy(d, s, w);
s += sp;
d += dp;
}
私は次のことを知っています
d, dp, s, sp, w
すべて32バイトで整列されているので、次の(まだかなりナイーブな)実装は次のようになりました。
for (int i = 0; i < h; i++) {
uint8_t* dst = d;
const uint8_t* src = s;
int remaining = w;
asm volatile (
"1: \n"
"subs %[rem], %[rem], #32 \n"
"vld1.u8 {d0, d1, d2, d3}, [%[src],:256]! \n"
"vst1.u8 {d0, d1, d2, d3}, [%[dst],:256]! \n"
"bgt 1b \n"
: [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
:
: "d0", "d1", "d2", "d3", "cc", "memory"
);
d += dp;
s += sp;
}
これは、多数の反復でmemcpyよりも約150%高速でした(異なるイメージで、キャッシュを利用していません)。まだプリロードを使用していないので、これは最適とは言えない気がしますが、使用するとパフォーマンスが大幅に低下するだけのようです。誰かがここで何か洞察を持っていますか?