重い線形代数計算を行う必要があるプログラムを開発しています。
現在、 LAPACK/BLASルーチンを使用していますが、自分のマシン (24 コア Xeon X5690) を活用する必要があります。
pblasやscalapackなどのプロジェクトを見つけましたが、それらはすべて分散コンピューティングと MPI の使用に重点を置いているようです。
利用可能なクラスターがありません。すべての計算は単一のサーバーで行われ、MPI を使用するのはやり過ぎのように見えます。
これについて何か提案はありますか?