私は幸運にも、大学の SLURM を利用した GPU クラスターにアクセスできる立場にあります。Tensorflow をクラスター ノードで実行しようとしてきましたが、これまでのところ、ドキュメントを見つけることができませんでした。(私が大学で話した人は皆、以前は CPU ノードを使用して、または単一の GPU ノードを使用して実行していました。
この前の質問hereから優れたドキュメントを見つけました。残念ながら、かなり不完全です。このような私が見つけた他のすべての分散例は、パラメーターサーバーを明示的に指定することに依存しています。
SO質問のコードを使用して実行しようとすると、存在しないパラメータサーバーへの接続に失敗するか、server.joinが呼び出されてスバッチ出力ファイルに出力が提供されないときにハングするまで、完全に動作しているように見えます(私は起こるべきだと理解しています)。
要するに、私の質問は、SLURM クラスターで Tensorflow を開始するにはどうすればよいかということです。スバッチの段階から。AWS で SPARK 以外の分散コンピューティング フレームワークを扱うのはこれが初めてで、Tensorflow を適切に構成する方法についてもっと学びたいと思っています。サーバーの例として、tf_hostlist 内のどの項目をパラメーター サーバーとして指定するにはどうすればよいですか? あるいは、他の例で見たように、sbatch を使用して各ワーカーにわずかに異なるコマンドを送信できますか?