3

当社の Hadoop セットアップでは、データノードがクラッシュした (または) Hadoop がデータノードで応答しない場合、reduce タスクは失敗したノードから読み取ることができずに失敗します (以下の例外)。Hadoop はデータ ノードの障害を処理し、それが Hadoop を作成する主な目的だと思いました。クラスターで同様の問題に直面している人はいますか? 解決策がある場合は、お知らせください。

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(Unknown Source)
    at java.io.BufferedInputStream.fill(Unknown Source)
    at java.io.BufferedInputStream.read1(Unknown Source)
    at java.io.BufferedInputStream.read(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getInputStream(ReduceTask.java:1547)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.setupSecureConnection(ReduceTask.java:1483)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getMapOutput(ReduceTask.java:1391)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.copyOutput(ReduceTask.java:1302)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.run(ReduceTask.java:1234)
4

2 に答える 2

2

mapreduce ジョブのタスクが失敗すると、Hadoop は別のノードでそれを再試行します jobtracker (:50030/jobtracker.jsp) を見て、ブラックリストに登録されたノード (キープアライブに問題があるノード) を確認するか、ドリルして実行中/完了したジョブと、強制終了されたタスク/再試行の数、およびデッドノード、廃止されたノードなどを確認します。

于 2011-11-28T21:27:20.480 に答える
1

「メモリ不足」の問題により、一部のノードでタスクの実行が失敗したクラスターで同様の問題が発生しました。それらは間違いなく他のノードで再起動されました。設計が不適切だったため、計算は最終的に失敗し、すべてのノードでメモリが不足し、最終的にジョブをキャンセルするためのしきい値に達しました。

于 2011-12-03T19:16:34.570 に答える