最新のIntelCPU(Core i7、Sandy Bridge)で128ビットシフトを実行する最も効率的な方法は何ですか。
同様のコードが私の最も内側のループにあります:
u128 a[N];
void xor() {
for (int i = 0; i < N; ++i) {
a[i] = a[i] ^ (a[i] >> 1) ^ (a[i] >> 2);
}
}
のデータa[N]
はほぼランダムです。
最新のIntelCPU(Core i7、Sandy Bridge)で128ビットシフトを実行する最も効率的な方法は何ですか。
同様のコードが私の最も内側のループにあります:
u128 a[N];
void xor() {
for (int i = 0; i < N; ++i) {
a[i] = a[i] ^ (a[i] >> 1) ^ (a[i] >> 2);
}
}
のデータa[N]
はほぼランダムです。
命令Shift Doubleを使用します。
SSEはこの目的を意図していないため、SHLD
または指示です。SHRD
古典的な方法があります。ここには、32ビットおよび64ビットCPUモードで128ビット左シフト16ビットのテストケースがあります。
この方法では、最大 32/64 ビットの無制限のサイズ シフトを実行できます。Yoo は、即値のビット数または cl レジスタの数値をシフトできます。最初の命令オペラントは、メモリ内の変数をアドレス指定することもできます。
32 ビット x86 CPU モードでの 16 ビットによる 128 ビット左シフト:
mov eax, $04030201;
mov ebx, $08070605;
mov ecx, $0C0B0A09;
mov edx, $100F0E0D;
shld edx, ecx, 16
shld ecx, ebx, 16
shld ebx, eax, 16
shl eax, 16
また、64 ビット x86 CPU モードで 128 ビットを 16 ビット左シフトします。
mov rax, $0807060504030201;
mov rdx, $100F0D0E0B0C0A09;
shld rdx, rax, 16
shl rax, 16
この特定のケースでは、x86 SHR 命令と RCR 命令を組み合わせて使用できます。
; a0 - bits 0-31 of a[i]
; a1 - bits 32-63 of a[i]
; a2 - bits 64-95 of a[i]
; a3 - bits 96-127 of a[i]
mov eax, a0
mov ebx, a1
mov ecx, a2
mov ecx, a3
shr eax, 1
rcr ebx, 1
rcr ecx, 1
rcr edx, 1
; b0 - bits 0-31 of b[i] := a[i] >> 1
; b1 - bits 32-63 of b[i] := a[i] >> 1
; b2 - bits 64-95 of b[i] := a[i] >> 1
; b3 - bits 96-127 of b[i] := a[i] >> 1
mov b0, eax
mov b1, ebx
mov b2, ecx
mov b3, edx
shr eax, 1
rcr ebx, 1
rcr ecx, 1
rcr edx, 1
; c0 - bits 0-31 of c[i] := a[i] >> 2 = b[i] >> 1
; c1 - bits 32-63 of c[i] := a[i] >> 2 = b[i] >> 1
; c2 - bits 64-95 of c[i] := a[i] >> 2 = b[i] >> 1
; c3 - bits 96-127 of c[i] := a[i] >> 2 = b[i] >> 1
mov c0, eax
mov c1, ebx
mov c2, ecx
mov c3, edx
ターゲットが x86-64 の場合、これは次のように単純化されます。
; a0 - bits 0-63 of a[i]
; a1 - bits 64-127 of a[i]
mov rax, a0
mov rbx, a1
shr rax, 1
rcr rbx, 1
; b0 - bits 0-63 of b[i] := a[i] >> 1
; b1 - bits 64-127 of b[i] := a[i] >> 1
mov b0, rax
mov b1, rbx
shr rax, 1
rcr rbx, 1
; c0 - bits 0-63 of c[i] := a[i] >> 2 = b[i] >> 1
; c1 - bits 64-127 of c[i] := a[i] >> 2 = b[i] >> 1
mov c0, rax
mov c1, rbx
更新: 64 ビット版のタイプミスを修正