2 つの 4x4 行列 a= 0010,0100,1111,0001、b=1100,0001,0100,0100 が与えられた場合、最初に転置 b' = 1000,1011,0000,0100 を計算できます。
次に、結果の行列 M(i,j)=axb mod 2 == popcount(a[i]&b[j]) & 1; // またはパリティ
そのことから、ビットベクトルがコンピューターの単語に適合する限り、複雑さが n^2 だけ大きくなることがわかります。
これは、いくつかの特別な順列とビット選択操作が利用可能であれば、少なくとも 8x8 行列の速度を上げることができます。ベクトル内の NxN ビットを使用して、正確に N 回繰り返すことができます。(したがって、16x16 がほぼ限界です)。
各ステップは、Result(n+1) = Result(n) XOR A(n) .& B(n) の累積で構成されます。ここで、Result(0) = 0、A(n) は A <<< n、および ' <<<' == 要素の列方向の回転。ここで、B(n) は行列 B から対角要素をコピーします。
a b c a e i d h c g b f
B= d e f B(0) = a e i B(1) = d h c B(2) = g b f
g h i a e i d h c g b f
そして、もう少し考えた後、より良いオプションは、^^^
マトリックス B を (行ごとに回転) し、A(n) == A からコピーされた列の対角線を選択することです。
a b c a a a b b b c c c
A= d e f A(0) = e e e , A(1) = f f f, A(2) = d d d
g h i i i i g g g h h h
EDIT後の読者のために、ポータブル C での W<=16 ビット行列乗算の完全なソリューションを提案します。
#include <stdint.h>
void matrix_mul_gf2(uint16_t *a, uint16_t *b, uint16_t *c)
{
// these arrays can be read in two successive xmm registers or in a single ymm
uint16_t D[16]; // Temporary
uint16_t C[16]={0}; // result
uint16_t B[16];
uint16_t A[16];
int i,j;
uint16_t top_row;
// Preprocess B (while reading from input)
// -- "un-tilt" the diagonal to bit position 0x8000
for (i=0;i<W;i++) B[i]=(b[i]<<i) | (b[i]>>(W-i));
for (i=0;i<W;i++) A[i]=a[i]; // Just read in matrix 'a'
// Loop W times
// Can be parallelized 4x with MMX, 8x with XMM and 16x with YMM instructions
for (j=0;j<W;j++) {
for (i=0;i<W;i++) D[i]=((int16_t)B[i])>>15; // copy sign bit to rows
for (i=0;i<W;i++) B[i]<<=1; // Prepare B for next round
for (i=0;i<W;i++) C[i]^= A[i]&D[i]; // Add the partial product
top_row=A[0];
for (i=0;i<W-1;i++) A[i]=A[i+1];
A[W-1]=top_row;
}
for (i=0;i<W;i++) c[i]=C[i]; // return result
}