sse - インテル C コンパイラー (icc) での誤った自動ベクトル化

Question

プログラム内の巨大なループを SSE でベクトル化する必要があります。時間を節約するために、ICC に任せることにしました。そのために、アラインメントを考慮してデータを適切に準備し、コンパイラディレクティブ #pragma simd、#pragma aligned、を使用し#pragma ivdepます。いくつかのオプションを指定してコンパイルすると-vec-report、コンパイラーはループがベクトル化されたことを通知します。コンパイラによって生成されたアセンブリをざっと見てみると、パックされた単精度オペランド (シリアルコードハンドラの浮動小数点オペランドのすべての演算) で動作するベクトル命令がたくさんあるので、それが確認できるようです。

問題は、PAPI でハードウェアカウンターを取得すると、取得する FP 操作の数 (PAPI_FP_INSおよびPAPI_FP_OPS) が、自動ベクトル化されたコードと元のコードでかなり同じになることです。 . さらに、関係する単純化された問題を手でベクトル化すると、この場合、FP 操作の 3 分の 1 のようなものを得ることができます。

誰かがこれに似たようなことを経験しましたか?

score 0 · Accepted Answer

こぼれるとベクトル化の利点が失われる可能性があるため、64 ビットモードは 32 ビットモードよりも大幅に向上する可能性があります。また、icc はループをバージョン管理する場合があり、ベクトルバージョンが存在する場合でも、スカラーバージョンをヒットしている可能性があります。昨年または 2 年に発行された icc バージョンでは、この領域のいくつかの問題が修正されています。

sse - インテル C コンパイラー (icc) での誤った自動ベクトル化

1 に答える 1

Related

Reference