いくつかのコードを改善しようとしましたが、できませんでした。ここで助けを求めます。組み込み関数も試しましたが、組み込み関数を使用する場合は、GCCコンパイラを使用する必要があります。このコンパイラは、LLVMよりも遅いコードをコンパイルします。 、するとすべてのコードが遅くなるため、asmを直接使用するのが最善のオプションです。改善したい両方の関数とネオンのコードを入れました。コードはナンセンスな数値を返しています。私は本当にこれについて助けが必要です、正しい方向へのどんなポイントでも私を大いに助けることができます。
改善したいコード:
inline unsigned des(const unsigned char* v0)
{
unsigned r;
r = v0[0]*v0[0];
r += v0[1]*v0[1];
r += v0[2]*v0[2];
r += v0[3]*v0[3];
r += v0[4]*v0[4];
r += v0[5]*v0[5];
r += v0[6]*v0[6];
r += v0[7]*v0[7];
return r;
}
inline unsigned suma(const unsigned char* v0)
{
unsigned r;
r = v0[0];
r += v0[1];
r += v0[2];
r += v0[3];
r += v0[4];
r += v0[5];
r += v0[6];
r += v0[7];
return r;
}
ネオンコードが機能しない
unsigned desneon(unsigned v0[8])
{
asm volatile (
"vld1.32 {d2- d5}, [%0] \n\t"
"vld1.32 {d6- d9}, [%0] \n\t"
"vmul.s32 d0, d2, d6 \n\t" //d0= d2*d6
"vmla.s32 d0, d3, d7 \n\t" //d0 = d0 + d3*d7
"vmla.s32 d0, d4, d8 \n\t" //d0 = d0 + d4*d8
"vmla.s32 d0, d5, d9 \n\t" //d0 = d0 + d5*d9
"vpadd.s32 d0, d0 \n\t" //d0 = d[0] + d[1]
:: "r"(v0) :
);
}
どうもありがとう!!!