SSE2組み込み関数を使用して、8x16ビットベクトルの転置関数を作成しています。その関数には 8 つの引数 (8x8x16 ビット サイズの行列) があるため、参照で渡す以外に何もできません。それはコンパイラによって最適化されますか (つまり、これらの __m128i オブジェクトはスタックではなくレジスタで渡されますか)?
コードスニペット:
inline void transpose (__m128i &a0, __m128i &a1, __m128i &a2, __m128i &a3,
__m128i &a4, __m128i &a5, __m128i &a6, __m128i &a7) {
....
}