sse 組み込み関数を使用して float ベクトルの合計要素 (リダクション) を取得するにはどうすればよいですか?
シンプルなシリアルコード:
void(float *input, float &result, unsigned int NumElems)
{
result = 0;
for(auto i=0; i<NumElems; ++i)
result += input[i];
}
通常、ループ内で 4 つの部分合計を生成し、ループ後に 4 つの要素を横方向に合計します。
#include <cassert>
#include <cstdint>
#include <emmintrin.h>
float vsum(const float *a, int n)
{
float sum;
__m128 vsum = _mm_set1_ps(0.0f);
assert((n & 3) == 0);
assert(((uintptr_t)a & 15) == 0);
for (int i = 0; i < n; i += 4)
{
__m128 v = _mm_load_ps(&a[i]);
vsum = _mm_add_ps(vsum, v);
}
vsum = _mm_hadd_ps(vsum, vsum);
vsum = _mm_hadd_ps(vsum, vsum);
_mm_store_ss(&sum, vsum);
return sum;
}
注: 上記の例では、a
は 16 バイトにアラインされてn
いる必要があり、4 の倍数である必要があります。 のアラインメントa
が保証されない場合は、 の_mm_loadu_ps
代わりに_mm_load_ps
. n
が 4 の倍数であることが保証されていない場合は、関数の最後にスカラー ループを追加して、残りの要素を蓄積します。