線形代数のツリーステップを何度も繰り返すアルゴリズムがあります。
loop{
first I multiply a Vector and a Matrix,
Second I calculate the sum of elements in the Vector
and Thirdly I scale the vector using the sum, making sure the vectors elements scale to one.
}
私はBLASを使用して操作を行っています。これはやや高速ですが、ステップごとに1つずつ、データに対してツリーを実行する必要があります。ここで、ステップを1つにまとめて、データを1回だけ実行することで、何かが得られるのではないかと考えています。
これらの呼び出しを最適な方法で実装する方法について経験がある人はいますか。私の行列は約100*100で、ベクトルは100個の要素を持っています。
ベクトルは8つの128バイトmmxレジスタのようなものに収まると思います。掛け算をかなり速くする、何かアイデアはありますか?