任意のサイズの行列とベクトルの高速なベクトル化された線形代数計算をサポートするために何が必要かを理解しようとしています。x86 プロセッサ アーキテクチャについて私が理解していることから、制限されたサイズの特殊なレジスタが含まれています。これらのレジスターを使用すると、浮動小数点数をロードしたり、操作をレジスター全体にブロードキャストしたりできます。限られたサイズを効率的に回避するにはどうすればよいですか?
これを理解するためにOpenBLASのソースコードを見ていましたが、開発ドキュメントを見ても、 などの単純な操作の一般的な流れを理解できませんでしたgemv
。