ここでの単純な方法よりも優れた行列乗算の適切な実装を行う必要があります。使用した方法は次のとおりです。1-誤った依存関係を削除して、パフォーマンスを大幅に向上させました展開中。問題は、私がそれを使用するたびに、パフォーマンスが最悪になることです。説明が見つかりません。助けが必要です。ここにコードがあります
for (i = 0; i < M; i++)
for (j = 0; j < N; j++) {
double sum = 0;
#pragma unroll(5)
for (k = 0; k < K; k++)
{
sum += A[i + k*LDA] * B[k + j*LDB];
}
C[i + j*LDC] = sum ;
}