Google Dataproc を数週間使用していますが、使い始めてからジョブのキャンセルと停止に問題がありました。
クラスターのセットアップで作成されたもの以外に、ジョブを追跡および監視するサーバーが必要なようです。
開発コンソールで停止を押したときに、エラーなしでジョブを実行するプロセスが実際に停止したことはありません。スピナーはただ回転し続けます。
クラスタを再起動または停止しても、数時間停止しても何も起こりません。
クラスターが完全に削除された場合にのみ、ジョブが消えます... (しかし、もっとあるので待ってください!) 以前のクラスターのジョブが削除される前に、同じ設定で新しいクラスターを作成すると、古いジョブが新しいクラスターで開始されます。 !!!
OOM エラーが原因で自然に終了したジョブが、クラスターの再起動後に自動的に再起動するのを見てきました。(私の側では、この種のフォールトトレランスのコーディングはありません)
Dataproc ジョブを強制的に停止するにはどうすればよいですか? (gcloud beta dataproc jobs kill
動作しません)
これらの一見関連する問題で何が起こっているか知っている人はいますか?
これらの問題を回避するために Spark ジョブをシャットダウンする特別な方法はありますか?