128 個の 32 ビット値 (0 から 127 までの番号が付けられています) があり、次のように並べ替えています。
0, 32, 64, 96, 1, 33, 65, 97, ... 31, 63, 95, 127
この順序で、4 つのグループで NEON レジスタにロードして、計算を実行します (このような順序が必要です)。したがって、私はq0 = (0, 32, 64, 96)
...などを持っています。
それらを自然な順序でメモリに保存する簡単な方法があるかどうか疑問に思っていました(0 1 2 3 ...)
言い換えれば、これを行うための簡単な方法やトリックはありますか?
vst1.u32 {d0[0]}, [r0]
vst1.u32 {d0[1]}, [r0,#128]
vst1.u32 {d1[0]}, [r0,#256]
vst1.u32 {d1[1]}, [r0,#384]
vst1.u32 {d2[0]}, [r0,#4]
vst1.u32 {d2[1]}, [r0,#132]
...
および命令を@alignment
含む接尾辞の使用がよくわかりません。役に立つケースではないでしょうか。vstx
vldx