最近、tensorflow に配布トレーニング モジュールが追加されました。配布の事前要件は何ですか? そういう環境というか、
tensorflow >= 0.8 kubernates shared file system, gcloud?
そして、サンプルコードをリリースしました:
hdfsのみがあり、共有ファイルシステムがない場合、テンソルフロークラスターの例を実行する方法はありますか?ファイルストアをモデル化する場所はどこですか?
最近、tensorflow に配布トレーニング モジュールが追加されました。配布の事前要件は何ですか? そういう環境というか、
tensorflow >= 0.8 kubernates shared file system, gcloud?
そして、サンプルコードをリリースしました:
hdfsのみがあり、共有ファイルシステムがない場合、テンソルフロークラスターの例を実行する方法はありますか?ファイルストアをモデル化する場所はどこですか?
各コンピューターには tensorflow をインストールする必要があります (私の経験では、それらはすべて同じバージョンである必要があります。バージョン 8 と 9 を混在させると、いくつかの問題が発生しました)。セットアップが完了すると、各コンピューターは実行するコード (たとえば main.py) にアクセスする必要があります。これを共有するために NFS を使用していますが、各マシンで git pull を実行してコードの最新のコピーを取得するのと同じくらい簡単です。次に、それらを起動するだけです。最も基本的なセットアップでは各マシンに ssh するだけですが、kubernates のようなクラスターがある場合は、異なる場合があります。
チェックポイントに関しては、あなたの最後の質問がそれを求めていた場合、チーフ ワーカーだけがチェックポイント ファイルに書き込むと思います。
他にご不明な点がございましたら、お問い合わせください。