1

チュートリアル「Pytorch を使用した Cloud TPU での FairSeq RoBERTa の事前トレーニング」に従って、プリエンプティブル (v2-8) TPU 環境をセットアップし、RoBERTa モデルをトレーニングしました。PyTorch 環境は、ドキュメントで指示されているように torch-xla-1.6 に基づいています。ただし、通常のように GPU でトレーニング ログを出力せず、RPC 失敗の警告 (以下を参照 - ネットワーク エンドポイントはここで削除されます) を 2 ~ 3 日に 2 回 (12 時間の間隔で) スローします。

エポックあたりの私のトレーニング ステップは 161,529 です。ドキュメントによると、v2-8 は、私が構成した 5 つのエポックで 80 時間かかります。しかし、私の仕事はそこでぶら下がっているようです。

アドバイスをお願いします。

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC
4

1 に答える 1