amazon-web-services - Sagemaker 分散データ並列処理が期待どおりに機能しない ( smdistributed.dataparallel.torch.distributed )

Question

全て、

データは分割されていますが、smdistributed.dataparallel.torch.parallel.distributed import DistributedDataParallel as DDP import smdistributed.dataparallel.torch.distributed からの分散トレーニング (2 つの lib を使用) のための AWS sagemaker データ並列処理アプローチを試していました。すべての GPU ("ml.p3.16xlarge" 、8 Gpus) ですが、シングルインスタンスでもダブルインスタンスでもトレーニング時間はまだ短縮されていません。

以前、Sagemaker Inbuilt アルゴ Resnet101 で 100 エポックトレーニング時間の同じデータを試したところ、約 2080 秒 (バッチサイズ - 64) でした。これは、分散トレーニングで改善したいベンチマークでした。

同じインスタンスで分散データ並列処理アプローチを使用して分散トレーニングを試したところ、20 エポックのトレーニングが行われました - 時間は 1600 秒 (バッチサイズ - 64) で、20 エポックのトレーニングです - 時間は 1300 秒 (バッチサイズ - 128) です。 20 エポックのトレーニングを行っています - 時間は 1063 秒です (バッチサイズ - 258)。

バッチサイズが異なっていても、トレーニング時間はあまり改善されません。

トレーニングデータ - 6016 画像。テストデータ - 745 枚の画像。

amazon-web-services - Sagemaker 分散データ並列処理が期待どおりに機能しない ( smdistributed.dataparallel.torch.distributed )

1 に答える 1

Related

Reference