2

ノードがファット ツリー IB で接続されているクラスターを取得します。スイッチはQlogic 12300です。

私が抱えている問題は、特定のノードが互いに通信できないことです。影響を受けるノードの両方と通信できる他のノードもあります。

問題を診断するために ibtracert を使用しました。驚くべきことは、両方のノードと通信できる別のノードでそのコマンドを実行すると、それらは問題なく実行可能なルートを報告したことです。

ただし、影響を受ける 2 つのノードから ibtracert コマンドを発行すると、エラーが発生します。

これの考えられる理由は何ですか?

ありがとう。

4

1 に答える 1

2

2 つの HCA は相互に通信できません。これは、サブネット内のルーティングがそのように構成されているためです。3 番目のマシンから両方の「問題のある」マシンと通信できるという事実は、これがホストの問題ではなく、サブネットの問題であることを示しています。

Infiniband ルーティングは複雑な問題であり、あなたの説明だけでは修正方法がわかりません。

通常、Subnet Manager はすべてのスイッチでルーティングを計算および構成しています。どの種類の Subnet Manager を使用していますか? 一部のホストで実行される OpenSM ですか、それともスイッチの 1 つに組み込まれて実行される Qlogic の SM ですか?

Qlogic の場合は、管理 UI に移動し、ルーティング アルゴリズムを変更/修正する必要があります。OpenSM の場​​合は、" minhop" ルーティングで実行できます (実行"opensm -h"して使用法を確認します)。これで問題が解決するはずです。ただし、これで問題が実際に解決されるわけではありません。サブネット トポロジに問題がある可能性があります。minhop ルーティングで問題が解決する場合は、ここに集中する必要があります。

于 2014-02-26T10:21:27.667 に答える