c# - SIMD 組み込み関数を使用する場合のこれらの追加の逆アセンブリ命令は何ですか?

Question

RyuJIT で SIMD 命令を使用すると、どのような高速化が得られるかをテストしていますが、予期しない逆アセンブリ命令が表示されます。このコードは、RyuJIT チームの Kevin Frei によるこのブログ投稿と関連する投稿 (こちら) に基づいています。関数は次のとおりです。

static void AddPointwiseSimd(float[] a, float[] b) {
    int simdLength = Vector<float>.Count;
    int i = 0;
    for (i = 0; i < a.Length - simdLength; i += simdLength) {
        Vector<float> va = new Vector<float>(a, i);
        Vector<float> vb = new Vector<float>(b, i);
        va += vb;
        va.CopyTo(a, i);
    }
}

私が照会している逆アセンブリのセクションは、配列の値をVector<float>. 逆アセンブルのほとんどは、Kevin と Sasha の投稿にあるものと似ていますが、逆アセンブルに表示されないいくつかの追加の手順 (混乱した注釈と共に) を強調しています。

;// Vector<float> va = new Vector<float>(a, i);
  cmp eax,r8d              ; <-- Unexpected - Compare a.Length to i?
  jae 00007FFB17DB6D5F     ; <-- Unexpected - Jump to range check failure
  lea r10d,[rax+3] 
  cmp r10d,r8d 
  jae 00007FFB17DB6D5F 
  mov r11,rcx              ; <-- Unexpected - Extra register copy?
  movups xmm0,xmmword ptr [r11+rax*4+10h  ]

;// Vector<float> vb = new Vector<float>(b, i);
  cmp eax,r9d              ; <-- Unexpected - Compare b.Length to i?
  jae 00007FFB17DB6D5F     ; <-- Unexpected - Jump to range check failure
  cmp r10d,r9d 
  jae 00007FFB17DB6D5F 
  movups xmm1,xmmword ptr [rdx+rax*4+10h]

ループ範囲チェックが期待どおりであることに注意してください。

;// for (i = 0; i < a.Length - simdLength; i += simdLength) {
  add eax,4  
  cmp r9d,eax  
  jg loop

との追加の比較がある理由がわかりませんeax。これらの余分な指示が表示される理由と、それらを取り除くことが可能かどうかを誰かが説明できますか?

プロジェクト設定に関連している場合は、 github で同じ問題を示す非常によく似たプロジェクトがあります(FloatSimdProcessor.HwAcceleratedSumInPlace()またはを参照UShortSimdProcessor.HwAcceleratedSumInPlaceUnchecked())。

score 11 · Accepted Answer

Haswell のような AVX2 をサポートするプロセッサの場合、一度に 8 つのフロートを移動できるコード生成に注釈を付けます。

00007FFA1ECD4E20  push        rsi
00007FFA1ECD4E21  sub         rsp,20h  

00007FFA1ECD4E25  xor         eax,eax                       ; i = 0
00007FFA1ECD4E27  mov         r8d,dword ptr [rcx+8]         ; a.Length
00007FFA1ECD4E2B  lea         r9d,[r8-8]                    ; a.Length - simdLength
00007FFA1ECD4E2F  test        r9d,r9d                       ; if (i >= a.Length - simdLength)
00007FFA1ECD4E32  jle         00007FFA1ECD4E75              ; then skip loop 

00007FFA1ECD4E34  mov         r10d,dword ptr [rdx+8]        ; b.Length
00007FFA1ECD4E38  cmp         eax,r8d                       ; if (i >= a.Length)
00007FFA1ECD4E3B  jae         00007FFA1ECD4E7B              ; then OutOfRangeException
00007FFA1ECD4E3D  lea         r11d,[rax+7]                  ; i+7
00007FFA1ECD4E41  cmp         r11d,r8d                      ; if (i+7 >= a.Length)
00007FFA1ECD4E44  jae         00007FFA1ECD4E7B              ; then OutOfRangeException

00007FFA1ECD4E46  mov         rsi,rcx                       ; move a[i..i+7]
00007FFA1ECD4E49  vmovupd     ymm0,ymmword ptr [rsi+rax*4+10h]  

00007FFA1ECD4E50  cmp         eax,r10d                      ; same as above 
00007FFA1ECD4E53  jae         00007FFA1ECD4E7B              ; but for b
00007FFA1ECD4E55  cmp         r11d,r10d  
00007FFA1ECD4E58  jae         00007FFA1ECD4E7B  
00007FFA1ECD4E5A  vmovupd     ymm1,ymmword ptr [rdx+rax*4+10h]  

00007FFA1ECD4E61  vaddps      ymm0,ymm0,ymm1                ; a[i..] + b[i...]
00007FFA1ECD4E66  vmovupd     ymmword ptr [rsi+rax*4+10h],ymm0  

00007FFA1ECD4E6D  add         eax,8                         ; i += 8
00007FFA1ECD4E70  cmp         r9d,eax                       ; if (i < a.Length)
00007FFA1ECD4E73  jg          00007FFA1ECD4E38              ; then loop

00007FFA1ECD4E75  add         rsp,20h  
00007FFA1ECD4E79  pop         rsi  
00007FFA1ECD4E7A  ret

したがって、eax の比較は、ブログ投稿で説明されている「厄介な境界チェック」です。ブログ投稿は、実際には (まだ) 実装されていない最適化されたバージョンを提供します。実際のコードは現在、同時に移動される 8 つのフロートの最初と最後のインデックスの両方をチェックします。ブログ投稿のコメント「願わくば、境界チェックの除去作業が十分に強化されることを願っています」は未完了のタスクです :)

mov rsi,rcx命令はブログ投稿にもあり、レジスタアロケータの制限のようです。おそらく RCX が重要なレジスタであることに影響されて、通常はこれを格納します。これを最適化する作業を行うほど重要ではないと思いますが、レジスタ間の移動はレジスタの名前変更にのみ影響するため、0 サイクルかかると思います。

SSE2 と AVX2 の違いは見苦しいことに注意してください。コードは一度に 8 つの float を移動して追加しますが、実際にはそのうちの 4 つしか使用しません。 Vector<float>.Countプロセッサーのフレーバーに関係なく 4 であり、テーブルには 2 倍のパフォーマンスが残されています。実装の詳細を隠すのは難しいと思います。

c# - SIMD 組み込み関数を使用する場合のこれらの追加の逆アセンブリ命令は何ですか?

1 に答える 1

Related

Reference