ヘイ!
cの行列乗算コードを最適化する必要があり、SSEベクトル命令を使用して実行しています。また、ドット積dppsの命令がすでにあるSSE4.1が存在することもわかりました。
問題は、このソフトウェアが動作するはずのマシンに、SSE4.1をサポートしていない古いバージョンのgcc(4.1.2)がインストールされているが、それをサポートするプロセッサがあることです(理由を聞かないでください) gccバージョンはプロセッサより古いです...)。そのため、_mm_dp_ps関数を使用できません。
cにアセンブラコードを追加して少し遊んでいました。問題は、これまでアセンブラコードを使用したことがないため、非常に混乱することです。また、アセンブラでベクトル命令を処理するすべてのコードを記述する方が効率的ですか?
だから私はここでdpps命令を使用する他の方法があるかどうか、そしてそれが使用する価値があるかどうかを尋ねていますか?