hadoop - Hadoop は本当にデータノードの障害を処理しますか?

Question

当社の Hadoop セットアップでは、データノードがクラッシュした (または) Hadoop がデータノードで応答しない場合、reduce タスクは失敗したノードから読み取ることができずに失敗します (以下の例外)。Hadoop はデータノードの障害を処理し、それが Hadoop を作成する主な目的だと思いました。クラスターで同様の問題に直面している人はいますか? 解決策がある場合は、お知らせください。

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(Unknown Source)
    at java.io.BufferedInputStream.fill(Unknown Source)
    at java.io.BufferedInputStream.read1(Unknown Source)
    at java.io.BufferedInputStream.read(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getInputStream(ReduceTask.java:1547)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.setupSecureConnection(ReduceTask.java:1483)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getMapOutput(ReduceTask.java:1391)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.copyOutput(ReduceTask.java:1302)
    at org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.run(ReduceTask.java:1234)

score 2 · Accepted Answer

mapreduce ジョブのタスクが失敗すると、Hadoop は別のノードでそれを再試行します jobtracker (:50030/jobtracker.jsp) を見て、ブラックリストに登録されたノード (キープアライブに問題があるノード) を確認するか、ドリルして実行中/完了したジョブと、強制終了されたタスク/再試行の数、およびデッドノード、廃止されたノードなどを確認します。

score 1 · Accepted Answer

「メモリ不足」の問題により、一部のノードでタスクの実行が失敗したクラスターで同様の問題が発生しました。それらは間違いなく他のノードで再起動されました。設計が不適切だったため、計算は最終的に失敗し、すべてのノードでメモリが不足し、最終的にジョブをキャンセルするためのしきい値に達しました。

hadoop - Hadoop は本当にデータノードの障害を処理しますか?

2 に答える 2

Related

Reference