pytorch - PyTorch を使用して Cloud TPU で FairSeq RoBERTa をトレーニングすると、RPC が status = "Unavailable: Socket closed" エラーで失敗する

翻译自：https://stackoverflow.com/questions/63808385 2020-09-09T09:09:29.267

457 次

チュートリアル「Pytorch を使用した Cloud TPU での FairSeq RoBERTa の事前トレーニング」に従って、プリエンプティブル (v2-8) TPU 環境をセットアップし、RoBERTa モデルをトレーニングしました。PyTorch 環境は、ドキュメントで指示されているように torch-xla-1.6 に基づいています。ただし、通常のように GPU でトレーニングログを出力せず、RPC 失敗の警告 (以下を参照 - ネットワークエンドポイントはここで削除されます) を 2 ～ 3 日に 2 回 (12 時間の間隔で) スローします。

エポックあたりの私のトレーニングステップは 161,529 です。ドキュメントによると、v2-8 は、私が構成した 5 つのエポックで 80 時間かかります。しかし、私の仕事はそこでぶら下がっているようです。

アドバイスをお願いします。

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC

pytorch - PyTorch を使用して Cloud TPU で FairSeq RoBERTa をトレーニングすると、RPC が status = "Unavailable: Socket closed" エラーで失敗する

1 に答える 1

Related

Reference