8 ノードの Windows HDP クラスターで実行しようとしている Hadoop ジョブがあります。このジョブには 137,000 を超える入力があり、約 3.5 時間でマップ タスクの 84% から 92% を処理します。その後、リデューサーは 0% で再起動し、マップ タスクが再実行されます。仕事は決して終わらない。
私の質問は、リデューサーが再起動する原因となっている dfs からのマップ出力またはブロックを読み取るリデューサーにタイムアウトがありますか? または、リデューサーが何らかの制限に達した場合、原因を特定するのに役立つエラー メッセージが生成されますか。私の最初のハードルは、デフォルトのキューでは 100000 のタスクしか許可されていなかったのに、そのことを示すメッセージが表示されてジョブがエラーになったことでした。
私が使用している Hadoop のバージョンは、Microsoft HDInsight で得られるバージョンです。Windows 用の Hadoop 1.1.0 スナップショットのようです (Windows 用の Hortonworks Data Platform 1.0.1 Developer Preview)。クライアント タスクに 8000 MB のメモリを与えるようにプロパティを設定しました。jobtracker は Windows サービスから開始されたように実行されているため、VM が実際にどのくらいのメモリで開始されているかわかりません。