問題タブ [distributed-training]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - tf.data vs tf.keras.preprocessing.image.ImageDataGenerator
大きなデータを効率的にロードするためのさまざまな手法について読んでいました。tf.keras.preprocessing.imageImageDataGenerator と比較して、tf.data はうまく機能しているようです。
私が知っていることは、tf.data は CPU パイプラインを使用してデータを効率的にロードし、モデルのトレーニングが継続的かつ高速に処理されるようにすることです。しかし、これら2つの手法がどのように異なり、どのように異なるのかわかりませんでした。誰かがこれを説明できるなら、私はそれを高く評価します.
tensorflow - 動的 PS-Worker スキームは、クラスター伝搬モードでパラメーターを共有できません
ps-worker スキームを使用して、スケーラブルな分散トレーニング システムを構築しようとしています。この方式では、すべての PS がすべての PS に関する情報を持ち、PS の数は一定のままです。すべてのワーカーは、自分自身とすべての PS しか認識していません。
Tensorflow クラスター伝搬方法を使用して、PS とワーカーの両方を開始し、分散トレーニング ループを維持できます。しかし、各ワーカーは独自のトレーニング プロセスを保持しており、データ構造を他のワーカーと共有していないことがわかりました。
ここにデモがあります:
デモ.py
start.sh
結果 2 つのワーカー プロセスが正常に起動し、終了しました。しかし、varには異なる値があります。
クラスター伝播モードでワーカーに密な値と疎な値を共有させることは可能ですか? クラスターを動的に管理するための重要な機能だと思います。