問題タブ [distributed-training]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
172 参照

python - tf.data vs tf.keras.preprocessing.image.ImageDataGenerator

大きなデータを効率的にロードするためのさまざまな手法について読んでいました。tf.keras.preprocessing.imageImageDataGenerator と比較して、tf.data はうまく機能しているようです。

私が知っていることは、tf.data は CPU パイプラインを使用してデータを効率的にロードし、モデルのトレーニングが継続的かつ高速に処理されるようにすることです。しかし、これら2つの手法がどのように異なり、どのように異なるのかわかりませんでした。誰かがこれを説明できるなら、私はそれを高く評価します.

0 投票する
0 に答える
77 参照

tensorflow - Horovod を使用して分散環境で TensorFlow 2 を実行する方法は?

分散環境を正常にセットアップし、Horovodでサンプルを実行しました。また、TensorFlow 1 でベンチマークを分散セットアップ (4 ノードなど) で実行したい場合は、チュートリアルに従って次のように提出する必要があることも知っています。

しかし今、BERT モデルなどの TensorFlow 2公式モデルを実行したいと考えています。どのコマンドを使用すればよいですか?

0 投票する
1 に答える
92 参照

tensorflow - 動的 PS-Worker スキームは、クラスター伝搬モードでパラメーターを共有できません

ps-worker スキームを使用して、スケーラブルな分散トレーニング システムを構築しようとしています。この方式では、すべての PS がすべての PS に関する情報を持ち、PS の数は一定のままです。すべてのワーカーは、自分自身とすべての PS しか認識していません。

Tensorflow クラスター伝搬方法を使用して、PS とワーカーの両方を開始し、分散トレーニング ループを維持できます。しかし、各ワーカーは独自のトレーニング プロセスを保持しており、データ構造を他のワーカーと共有していないことがわかりました。

ここにデモがあります:

デモ.py

start.sh

結果 2 つのワーカー プロセスが正常に起動し、終了しました。しかし、varには異なる値があります。

クラスター伝播モードでワーカーに密な値と疎な値を共有させることは可能ですか? クラスターを動的に管理するための重要な機能だと思います。