多くの URL で実行され、それらを解析する mapreduce ジョブがあります。OOM エラーのような致命的なエラーで 1 つの解析タスクがクラッシュするシナリオを処理する方法が必要です。通常の Hadoop の動作では、タスクは定義された時間だけ再試行され、ジョブは失敗します。問題は、このエラーを引き起こす何らかの方法で破損した URL にあります。これらの URL は、すべての再試行で失敗します。
タスクが失敗した後に介入する方法はありますか? または再試行回数に達した後ですか?ジョブ全体が失敗するのを防ぎますか?