マルチCPU /コアマシンでmpi4pyとopenmpiを使用して、線形代数を実行しています。私の numpy はATLASを使用して構築されています。4 コアのマシンがあり、numpy を使用して各ノードで線形代数を実行する 4 ノードの Python スクリプトを実行したいとします。
各ノードで線形代数を実行しているときに、ATLAS が複数のコアを使用しないようにするにはどうすればよいですか? ATLAS をビルドするとき、一度に 1 つのコアだけで実行するように構成するオプションはないようです。インテル® MKL では OMP_NUM_THREADS=1 を設定できると思いますが、この動作は保証されています。この目的のためだけに ATLAS を構築する方法はありますか? 環境変数に相当するものはないようです。
マルチコア CPU の各コアで複数の BLAS 操作を同時に実行することは、適切な戦略ではないと推測しています。誰でもこれについてコメントしたり、これが良いアイデアか悪いアイデアかの経験則を教えてもらえますか?