ここのドキュメントを見ています: https://github.com/Microsoft/CNTK/wiki/Multiple-GPUs-and-machines
テキストによると、「Data-Parallel SGD は、1bit-SGD の有無にかかわらず使用できます。」
ただし、このドキュメントの後に続くのは、1 ビット SGD を使用するデータ並列関連のセクションのみです。「1 ビット SGD を使用したデータ並列トレーニング」には、次のコードがあります。
distributed_learner = distributed.data_parallel_distributed_learner(
learner = learner,
num_quantization_bits = 1,
distributed_after = distributed_after) # warm start: don't use 1-bit SGD for first epoch
1 ビット SGD を使用しない (上記の呼び出しで関連するパラメーターをスキップする) ことを選択した場合でも、data_parallel_distributed_learner の並列化の利点を得る必要があると思います。これが事実であることを確認していただけますか?
ありがとうございました