c++ - ベクトル化とループサイズに関する不可解な GCC の動作

Question

最初に#pragma omp simdディレクティブの効果を調査したところ、単純な for ループのベクトル化に関連する、説明できない動作に遭遇しました。次のコードサンプルは、-O3ディレクティブが適用され、x86 アーキテクチャを使用している場合、この優れたコンパイラエクスプローラーでテストできます。

次の観察の背後にある論理を説明してくれる人はいますか?

#include <stdint.h> 

void test(uint8_t* out, uint8_t const* in, uint32_t length)
{
    unsigned const l1 = (length * 32)/32;  // This is vectorized
    unsigned const l2 = (length / 32)*32;  // This is not vectorized

    unsigned const l3 = (length << 5)>>5;  // This is vectorized
    unsigned const l4 = (length >> 5)<<5;  // This is not vectorized

    unsigned const l5 = length -length%32; // This is not vectorized
    unsigned const l6 = length & ~(32 -1); // This is not vectorized

    for (unsigned i = 0; i<l1 /*pick your choice*/; ++i)
    {
      out[i] = in[i*2];
    }
}

私が困惑しているのは、l1 と l3 の両方が 32 の倍数であることが保証されていないにもかかわらず、ベクトル化されたコードを生成することです。他のすべての長さはベクトル化されたコードを生成しませんが、32 の倍数にする必要があります。これには理由がありますか?

余談ですが、#pragma omp simd ディレクティブを使用しても、実際には何も変わりません。

編集: さらに調査した結果、インデックスタイプが size_t の場合 (境界操作も必要ない場合)、動作の違いはなくなります。これは、ベクトル化されたコードが生成されることを意味します。

#include <stdint.h> 
#include <string>

void test(uint8_t* out, uint8_t const* in, size_t length)
{
    for (size_t i = 0; i<length; ++i)
    {
        out[i] = in[i*2];
    }
}

ループのベクトル化がインデックスの種類に大きく依存する理由を誰かが知っているなら、もっと知りたいです!

Edit2、Mark Lakata のおかげで、実際には O3 が必要です

score 1 · Accepted Answer

最適化とベクトル化を混同していると思います。コンパイラエクスプローラーを使用し、x86 用に -O2 を設定しましたが、「ベクトル化」された例はありません。

ここはl1

test(unsigned char*, unsigned char const*, unsigned int):
        xorl    %eax, %eax
        andl    $134217727, %edx
        je      .L1
.L5:
        movzbl  (%rsi,%rax,2), %ecx
        movb    %cl, (%rdi,%rax)
        addq    $1, %rax
        cmpl    %eax, %edx
        ja      .L5
.L1:
        rep ret

ここはl2

test(unsigned char*, unsigned char const*, unsigned int):
        andl    $-32, %edx
        je      .L1
        leal    -1(%rdx), %eax
        leaq    1(%rdi,%rax), %rcx
        xorl    %eax, %eax
.L4:
        movl    %eax, %edx
        addq    $1, %rdi
        addl    $2, %eax
        movzbl  (%rsi,%rdx), %edx
        movb    %dl, -1(%rdi)
        cmpq    %rcx, %rdi
        jne     .L4
.L1:
        rep ret

これは驚くべきことではありません。これは、ロードインデックスがストアインデックスと同じではない、本質的に「収集」ロード操作であるためです。x86 では、ギャザー/スキャッターはサポートされていません。AVX2 と AVX512 でのみ導入され、選択されていません。

少し長いコードは、符号付き/符号なしの問題を処理していますが、ベクトル化は行われていません。

c++ - ベクトル化とループ サイズに関する不可解な GCC の動作

2 に答える 2

Related

Reference

c++ - ベクトル化とループサイズに関する不可解な GCC の動作