SSE を使用すると、組み込みの _mm_load1_ps() を使用して、単一の float をメモリから __m128 の 4 つのスロットすべてにロードできます。
AVX で 256 ビット幅の SIMD を使用する場合、単一の float をメモリからベクターの 8 つのスロットすべてにロードする _mm256_load1_ps() がないようです。
この省略の理由と、これを回避する最善の方法は何ですか?
またはさらに良い: ベクトルのターゲット スロット 0..7 に単一のフロートをロードする方法はありますか?