tensorflow - 適切に構成されたパラメーターサーバーを使用して SLURM クラスターで Tensorflow を実行する方法は?

Question

私は幸運にも、大学の SLURM を利用した GPU クラスターにアクセスできる立場にあります。Tensorflow をクラスターノードで実行しようとしてきましたが、これまでのところ、ドキュメントを見つけることができませんでした。(私が大学で話した人は皆、以前は CPU ノードを使用して、または単一の GPU ノードを使用して実行していました。

この前の質問hereから優れたドキュメントを見つけました。残念ながら、かなり不完全です。このような私が見つけた他のすべての分散例は、パラメーターサーバーを明示的に指定することに依存しています。

SO質問のコードを使用して実行しようとすると、存在しないパラメータサーバーへの接続に失敗するか、server.joinが呼び出されてスバッチ出力ファイルに出力が提供されないときにハングするまで、完全に動作しているように見えます(私は起こるべきだと理解しています）。

要するに、私の質問は、SLURM クラスターで Tensorflow を開始するにはどうすればよいかということです。スバッチの段階から。AWS で SPARK 以外の分散コンピューティングフレームワークを扱うのはこれが初めてで、Tensorflow を適切に構成する方法についてもっと学びたいと思っています。サーバーの例として、tf_hostlist 内のどの項目をパラメーターサーバーとして指定するにはどうすればよいですか? あるいは、他の例で見たように、sbatch を使用して各ワーカーにわずかに異なるコマンドを送信できますか?

tensorflow - 適切に構成されたパラメーター サーバーを使用して SLURM クラスターで Tensorflow を実行する方法は?

0 に答える 0

Related

Reference

tensorflow - 適切に構成されたパラメーターサーバーを使用して SLURM クラスターで Tensorflow を実行する方法は?