いくつかのコードを超最適化しようとしていますが、高速化したい場所は次のとおりです。
_m128 であるドット積演算 (_mm_dp_ps) の答えを取得し、その答えをレジスタに直接保存したいと思います。ただし、_mm_store を使用すると、128 ビット全体を配列に書き込んでから、その配列の最初のエントリをロードする必要があります。
私の _m128 変数を「ベクトル」と呼びます。
float ans = *((float *)&vector) はできますか?
これが機能する場合、それが役立つかどうかという問題が残ります. ans はレジスタにロードされますか、それとも L1 からロードする必要がありますか?
ありがとうございました!!!