2

ここのドキュメントを見ています: https://github.com/Microsoft/CNTK/wiki/Multiple-GPUs-and-machines

テキストによると、「Data-Parallel SGD は、1bit-SGD の有無にかかわらず使用できます。」

ただし、このドキュメントの後に続くのは、1 ビット SGD を使用するデータ並列関連のセクションのみです。「1 ビット SGD を使用したデータ並列トレーニング」には、次のコードがあります。

distributed_learner = distributed.data_parallel_distributed_learner(
    learner = learner,
    num_quantization_bits = 1,
    distributed_after = distributed_after)  # warm start: don't use 1-bit SGD for first epoch

1 ビット SGD を使用しない (上記の呼び出しで関連するパラメーターをスキップする) ことを選択した場合でも、data_parallel_distributed_learner の並列化の利点を得る必要があると思います。これが事実であることを確認していただけますか?

ありがとうございました

4

1 に答える 1