32 個のスポット インスタンスで Hadoop 0.20 を使用してジョブを実行しています。エラーなしで 9 時間実行されています。その間、3800 のタスクを処理しましたが、スタックしているように見えるタスクが 2 つだけで、数時間単独で実行されていることに気付きました (タイムアウトしないため応答しているようです)。通常、タスクに 15 分以上かかることはありません。多額の費用がかかるため、すでに完了したすべての作業を失いたくありません。私は本当にこれら 2 つのタスクを強制終了し、Hadoop にそれらを再割り当てするか、単に失敗としてカウントするようにしたいと考えています。それらが停止するまで、他の 3798 マップからの削減結果を取得できません!
しかし、私はそれを行う方法を理解できません。どのインスタンスがタスクを実行しているかを把握し、それらのインスタンスを終了することを検討しましたが、
- どのインスタンスが原因であるかを特定する方法がわかりません
- 思わぬ影響が出る恐れがあります。
個々のマップ タスクを強制終了するにはどうすればよいですか?