Intel SSE 組み込み関数のさまざまな算術演算について質問があります。_mm_add_ps との違いは何ですか。_mm_add_epi8/16/32? データが常に整列されていることを確認したい。
これを行うときのサンプルコードでは:
__m128 u1 = _mm_load_ps(&V[(i-1)]);
セグメンテーション違反が発生します。しかし、私がこれを行うとき:
__m128 u1 = _mm_loadu_ps(&V[(i-1)]);
それは正常に動作します。
データを揃えたいので、次のように配列を宣言しました。
posix_memalign((void**)&V, 16, dx*sizeof(float));
誰かがこれを説明するのを助けることができますか.