5 ノードの Hadoop クラスターがあります。ノードごとに 10 個のマッパーを構成しました。MR ジョブの実行中に、hdfs ノードの 1 つが停止しました。これにより、最終的にそのタスク トラッカーがブラックリストに登録されます。ブラック リストに登録された後、MR ジョブが終了する前に、影響を受けた hdfs ノードを修正すると、ブラック リストからタスク トラッカーを回復できますか?
ubuntuでcloudera cdh 4.2を使用しています。
tasktracker の障害に関する「Hadoop Definitive Guide」を読んでいました。こんな発言見つけた
"ブラックリストに登録された tasktracker にはタスクが割り当てられませんが、jobtracker との通信は継続します。障害は時間の経過とともに (1 日 1 回の割合で) 期限切れになるため、tasktracker は実行を継続するだけでジョブを再度実行する機会を得ます。 (ハードウェアを交換するなどして) 修正できる根本的な障害である場合、タスクトラッカーは、再起動してクラスターに再参加した後、ジョブトラッカーのブラックリストから削除されます。」
Cloudera 4.2 についてはよくわかりませんが、コマンドを試すことができます
$ hadoop job -unblacklist <jobid> <hostname>
グローバルブラックリストから削除したい場合は、試してください
hadoop job -unblacklist-tracker <hostname>
どちらのコマンドも管理者ユーザーとして実行する必要があります。