8

SSE を使用すると、組み込みの _mm_load1_ps() を使用して、単一の float をメモリから __m128 の 4 つのスロットすべてにロードできます。

AVX で 256 ビット幅の SIMD を使用する場合、単一の float をメモリからベクターの 8 つのスロットすべてにロードする _mm256_load1_ps() がないようです。

この省略の理由と、これを回避する最善の方法は何ですか?

またはさらに良い: ベクトルのターゲット スロット 0..7 に単一のフロートをロードする方法はありますか?

4

1 に答える 1

11

_mm256_broadcast_ssが探しているものです。

于 2013-06-14T00:11:34.493 に答える