問題タブ [distributed-training]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

33 問題

0 投票する

0 に答える

33 参照

python - pyotrch 配布: シェルコマンドの実行

分散型 pytorch トレーニングを実行しています。すべてが魅力のように機能します。すべての GPU を十分に活用しており、すべてのプロセスが同期しており、すべて問題ありません。
各エポックの終わりに、新しいプロセスで精巧な評価を実行したいと思います (トレーニングをブロックしないため)。

この時点で、実行が停止し、新しいプロセスは開始されず、すべてが停止します。

pytorch の DDP とsubprocessモジュールの間に相互依存関係はありますか?
プロセス内から新しいシェルスクリプト ( subprocess.run/ subprocess.call/ subprocess.Popen)を開始するにはどうすればよいですか?DDP

また、この質問をpytorch のフォーラムに投稿し、バグレポートを開きました。

更新 (2021 年 7 月 29 日)
コードを次のように変更しました。

ダメ:Popenコマンドがブロックされており、pollコマンドの出力は実行されず、ましてやcommunicate.
でジョブをチェックするとtop、次のように表示されます。

実際に実行されるプロセスを見ると、次のようになります。

subprocessモジュールが新しいプロセスを開始するのを妨げる根本的なメカニズムがあるようです。

何か助けはありますか？

2021-07-25T06:43:45.977

0 投票する

1 に答える

54 参照

amazon-web-services - Sagemaker 分散データ並列処理が期待どおりに機能しない ( smdistributed.dataparallel.torch.distributed )

全て、

データは分割されていますが、smdistributed.dataparallel.torch.parallel.distributed import DistributedDataParallel as DDP import smdistributed.dataparallel.torch.distributed からの分散トレーニング (2 つの lib を使用) のための AWS sagemaker データ並列処理アプローチを試していました。すべての GPU ("ml.p3.16xlarge" 、8 Gpus) ですが、シングルインスタンスでもダブルインスタンスでもトレーニング時間はまだ短縮されていません。

以前、Sagemaker Inbuilt アルゴ Resnet101 で 100 エポックトレーニング時間の同じデータを試したところ、約 2080 秒 (バッチサイズ - 64) でした。これは、分散トレーニングで改善したいベンチマークでした。

同じインスタンスで分散データ並列処理アプローチを使用して分散トレーニングを試したところ、20 エポックのトレーニングが行われました - 時間は 1600 秒 (バッチサイズ - 64) で、20 エポックのトレーニングです - 時間は 1300 秒 (バッチサイズ - 128) です。 20 エポックのトレーニングを行っています - 時間は 1063 秒です (バッチサイズ - 258)。

バッチサイズが異なっていても、トレーニング時間はあまり改善されません。

トレーニングデータ - 6016 画像。テストデータ - 745 枚の画像。

amazon-web-services pytorch amazon-sagemaker distributed-training

2021-11-11T07:02:33.697

0 投票する

1 に答える

62 参照

python - GCP での PyTorch Lightning マルチノードトレーニングエラー

現在、Pytorch Lightning のトレーニングを含むプロジェクトに取り組んでいます。このコードは、DistributedDataParallel (DDP) を介して GPU を利用します。現在、Vertex AI トレーニングジョブの 1 台のマシンおよび/またはノートブックで実行している間は正常に動作しています。

しかし、マルチノードトレーニング (マスタープールとワーカープールを含む) で同じことを試みると、コードはワーカーマシンを利用せずにマスターノードで実行されるだけなので、トレーニングは開始されません。ここにトレーニング用のコードがあります -

Q1 - トレーニングジョブでワーカーノードを呼び出す方法はありますか?

また、同じ目的を支援できる Ray Lightning というモジュールに出くわしました。しかし、同じものを実装すると、いくつかのバグが発生します...コードで次のコマンドを指定しているにもかかわらず、初期化されません-

Q2 - 現在の問題の解決策はありますか?

前もって感謝します...

python google-cloud-platform ray pytorch-lightning distributed-training

2021-11-15T09:13:07.540

1 2 3 4 5 6 7 8 9 10

問題タブ [distributed-training]

python - pyotrch 配布: シェルコマンドの実行

amazon-web-services - Sagemaker 分散データ並列処理が期待どおりに機能しない ( smdistributed.dataparallel.torch.distributed )

python - GCP での PyTorch Lightning マルチノード トレーニング エラー

Reference

python - GCP での PyTorch Lightning マルチノードトレーニングエラー