現在、組み込み関数を使用して最適化しようとしている大きなピクセル処理関数があります。
SSE の初心者なので、ルックアップ テーブルを含むコードの部分に取り組む方法がわかりません。
基本的に、次のバニラ C++ コードをベクトル化しようとしています。
//outside loop
const float LUT_RATIO = 1000.0F;
//in loop
float v = ... //input value
v = myLookupTable[static_cast<int>(v * LUT_RATIO)];
私がしようとしていること:
//outside loop
const __m128 LUT_RATIO = _mm_set1_ps(1000.0F);
//in loop
__m128 v = _mm_set_ps(v1, v2, v3, v4); //input values
__m128i vI = _mm_cvtps_epi32(_mm_mul_ps(v, LUT_RATIO)); //multiply and convert to integers
v = ??? // how to get vI indices of myLookupTable?
編集:ildjarnは、私の側で明確化を要求する点を指摘しています。ルックアップ テーブル コードの高速化を達成しようとしているわけではありません。単に、ルックアップを実行するためにレジスタをフロートに戻す必要がないようにしようとしているだけです。この部分は、理論的には SSE の恩恵を受ける可能性のある 2 つの他の部分に挟まれているからです。