1 つのスレッドと 8 つのスレッドを使用して Eigen SGEMM 操作のベンチマークを行ったところ、パフォーマンスは 512x512 でピークに達しましたが、そのサイズを超えると低下しました。これには、おそらくより大きなマトリックスの複雑さを伴う何か特定の理由があるのではないかと思っていましたか? Eigen のウェブサイトでマトリックス - マトリックス操作のベンチマークを見ましたが、似たようなものは見当たりませんでした。
512x512 で、並行して 4 倍速くなりました。しかし、4096x4096 ではかろうじて 2 倍速くなりました。私は並列処理のために openMP を使用しており、それを 1 つのスレッドにするために num_of_threads を 2 に設定しています。