0

8 ノードの Windows HDP クラスターで実行しようとしている Hadoop ジョブがあります。このジョブには 137,000 を超える入力があり、約 3.5 時間でマップ タスクの 84% から 92% を処理します。その後、リデューサーは 0% で再起動し、マップ タスクが再実行されます。仕事は決して終わらない。

私の質問は、リデューサーが再起動する原因となっている dfs からのマップ出力またはブロックを読み取るリデューサーにタイムアウトがありますか? または、リデューサーが何らかの制限に達した場合、原因を特定するのに役立つエラー メッセージが生成されますか。私の最初のハードルは、デフォルトのキューでは 100000 のタスクしか許可されていなかったのに、そのことを示すメッセージが表示されてジョブがエラーになったことでした。

私が使用している Hadoop のバージョンは、Microsoft HDInsight で得られるバージョンです。Windows 用の Hadoop 1.1.0 スナップショットのようです (Windows 用の Hortonworks Data Platform 1.0.1 Developer Preview)。クライアント タスクに 8000 MB のメモリを与えるようにプロパティを設定しました。jobtracker は Windows サービスから開始されたように実行されているため、VM が実際にどのくらいのメモリで開始されているかわかりません。

4

1 に答える 1

0

マップタスクでカウンターを使用しましたか? マップ タスクは CPU を集中的に使用していますか? はいの場合は、カウンターを使用して、Hadoop がジョブがハングしていると認識せず、代わりに処理中であることを確認する必要があります。

于 2013-07-10T12:59:15.960 に答える