全て、
データは分割されていますが、smdistributed.dataparallel.torch.parallel.distributed import DistributedDataParallel as DDP import smdistributed.dataparallel.torch.distributed からの分散トレーニング (2 つの lib を使用) のための AWS sagemaker データ並列処理アプローチを試していました。すべての GPU ("ml.p3.16xlarge" 、8 Gpus) ですが、シングル インスタンスでもダブル インスタンスでもトレーニング時間はまだ短縮されていません。
以前、Sagemaker Inbuilt アルゴ Resnet101 で 100 エポック トレーニング時間の同じデータを試したところ、約 2080 秒 (バッチ サイズ - 64) でした。これは、分散トレーニングで改善したいベンチマークでした。
同じインスタンスで分散データ並列処理アプローチを使用して分散トレーニングを試したところ、20 エポックのトレーニングが行われました - 時間は 1600 秒 (バッチ サイズ - 64) で、20 エポックのトレーニングです - 時間は 1300 秒 (バッチ サイズ - 128) です。 20 エポックのトレーニングを行っています - 時間は 1063 秒です (バッチ サイズ - 258)。
バッチ サイズが異なっていても、トレーニング時間はあまり改善されません。
トレーニング データ - 6016 画像。テスト データ - 745 枚の画像。