java - for ループでジョブを起動する

Question

私は奇妙な問題に直面しています。ファイル内のパターンを検索する mapreduce クラスがあります (パターンファイルは DistributedCache に入ります)。ここで、このクラスを再利用して 1000 個のパターンファイルを実行したいと考えました。パターンマッチングクラスを拡張し、メイン関数と実行関数をオーバーライドするだけで済みました。子クラスの実行で、コマンドライン引数を変更し、それらを親の run() 関数に渡します。イテレーション 45 ～ 50 まではすべてうまくいきます。突然、すべてのタスクトラッカーが失敗し始め、進歩がなくなります。HDFS を確認しましたが、まだ 70% のスペースが残っています。50 個のジョブを 1 つずつ起動すると、hadoop が困難になる理由について、誰かアイデアはありますか?

@Override
    public int run(String[] args) throws Exception {

        //-patterns patternsDIR input/ output/

        List<String> files = getFiles(args[1]);
        String inputDataset=args[2];
        String outputDir=args[3];



        for (int i=0; i<files.size(); i++){


            String [] newArgs= new String[4];
            newArgs = modifyArgs(args);
            super.run(newArgs);
        }

        return 0;
    }

EDIT：ジョブログを確認したところ、これが最初に発生したエラーです：

2013-11-12 09:03:01,665 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hduser cause:java.io.IOException: java.lang.OutOfMemoryError: Java heap space
2013-11-12 09:03:32,971 INFO org.apache.hadoop.mapred.JobInProgress: Task 'attempt_201311120807_0053_m_000053_0' has completed task_201311120807_0053_m_000053 successfully.
2013-11-12 09:07:51,717 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hduser cause:java.io.IOException: java.lang.OutOfMemoryError: Java heap space
2013-11-12 09:08:05,973 INFO org.apache.hadoop.mapred.JobInProgress: Task 'attempt_201311120807_0053_m_000128_0' has completed task_201311120807_0053_m_000128 successfully.
2013-11-12 09:08:16,571 INFO org.apache.hadoop.mapred.JobInProgress: Task 'attempt_201311120807_0053_m_000130_0' has completed task_201311120807_0053_m_000130 successfully.
2013-11-12 09:08:16,571 WARN org.apache.hadoop.hdfs.LeaseRenewer: Failed to renew lease for [DFSClient_NONMAPREDUCE_1595161181_30] for 30 seconds.  Will retry shortly ...
2013-11-12 09:08:27,175 INFO org.apache.hadoop.mapred.JobInProgress: Task 'attempt_201311120807_0053_m_000138_0' has completed task_201311120807_0053_m_000138 successfully.
2013-11-12 09:08:25,241 ERROR org.mortbay.log: EXCEPTION 
java.lang.OutOfMemoryError: Java heap space
2013-11-12 09:08:25,241 INFO org.apache.hadoop.ipc.Server: IPC Server handler 7 on 54311, call heartbeat(org.apache.hadoop.mapred.TaskTrackerStatus@7fcb9c0a, false, false, true, 9834) from 10.1.1.13:55028: error: java.io.IOException: java.lang.OutOfMemoryError: Java heap space
java.io.IOException: java.lang.OutOfMemoryError: Java heap space
    at java.lang.AbstractStringBuilder.<init>(AbstractStringBuilder.java:62)
    at java.lang.StringBuilder.<init>(StringBuilder.java:97)
    at org.apache.hadoop.util.StringUtils.escapeString(StringUtils.java:435)
    at org.apache.hadoop.mapred.Counters.escape(Counters.java:768)
    at org.apache.hadoop.mapred.Counters.access$000(Counters.java:52)
    at org.apache.hadoop.mapred.Counters$Counter.makeEscapedCompactString(Counters.java:111)
    at org.apache.hadoop.mapred.Counters$Group.makeEscapedCompactString(Counters.java:221)
    at org.apache.hadoop.mapred.Counters.makeEscapedCompactString(Counters.java:648)
    at org.apache.hadoop.mapred.JobHistory$MapAttempt.logFinished(JobHistory.java:2276)
    at org.apache.hadoop.mapred.JobInProgress.completedTask(JobInProgress.java:2636)
    at org.apache.hadoop.mapred.JobInProgress.updateTaskStatus(JobInProgress.java:1222)
    at org.apache.hadoop.mapred.JobTracker.updateTaskStatuses(JobTracker.java:4471)
    at org.apache.hadoop.mapred.JobTracker.processHeartbeat(JobTracker.java:3306)
    at org.apache.hadoop.mapred.JobTracker.heartbeat(JobTracker.java:3001)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:587)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1432)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1428)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1426)
2013-11-12 09:08:16,571 INFO org.apache.hadoop.ipc.Server: IPC Server handler 1 on 54311, call heartbeat(org.apache.hadoop.mapred.TaskTrackerStatus@3269c671, false, false, true, 9841) from 10.1.1.23:42125: error: java.io.IOException: java.lang.OutOfMemoryError: Java heap space
java.io.IOException: java.lang.OutOfMemoryError: Java heap space
    at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$Packet.<init>(DFSClient.java:2875)
    at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.writeChunk(DFSClient.java:3806)
    at org.apache.hadoop.fs.FSOutputSummer.writeChecksumChunk(FSOutputSummer.java:150)
    at org.apache.hadoop.fs.FSOutputSummer.flushBuffer(FSOutputSummer.java:132)
    at org.apache.hadoop.fs.FSOutputSummer.flushBuffer(FSOutputSummer.java:121)
    at org.apache.hadoop.fs.FSOutputSummer.write1(FSOutputSummer.java:112)
    at org.apache.hadoop.fs.FSOutputSummer.write(FSOutputSummer.java:86)
    at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.write(FSDataOutputStream.java:49)
    at java.io.DataOutputStream.write(DataOutputStream.java:107)
    at sun.nio.cs.StreamEncoder.writeBytes(StreamEncoder.java:220)
    at sun.nio.cs.StreamEncoder.implFlushBuffer(StreamEncoder.java:290)
    at sun.nio.cs.StreamEncoder.implFlush(StreamEncoder.java:294)
    at sun.nio.cs.StreamEncoder.flush(StreamEncoder.java:140)
    at java.io.OutputStreamWriter.flush(OutputStreamWriter.java:229)
    at java.io.BufferedWriter.flush(BufferedWriter.java:253)
    at java.io.PrintWriter.flush(PrintWriter.java:293)
    at java.io.PrintWriter.checkError(PrintWriter.java:330)
    at org.apache.hadoop.mapred.JobHistory.log(JobHistory.java:847)
    at org.apache.hadoop.mapred.JobHistory$MapAttempt.logStarted(JobHistory.java:2225)
    at org.apache.hadoop.mapred.JobInProgress.completedTask(JobInProgress.java:2632)
    at org.apache.hadoop.mapred.JobInProgress.updateTaskStatus(JobInProgress.java:1222)
    at org.apache.hadoop.mapred.JobTracker.updateTaskStatuses(JobTracker.java:4471)
    at org.apache.hadoop.mapred.JobTracker.processHeartbeat(JobTracker.java:3306)
    at org.apache.hadoop.mapred.JobTracker.heartbeat(JobTracker.java:3001)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:587)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1432)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1428)
    at java.security.AccessController.doPrivileged(Native Method)

その後、次のように表示されます。

2013-11-12 09:13:48,204 INFO org.apache.hadoop.mapred.TaskInProgress: Error from attempt_201311120807_0053_m_000033_0: Lost task tracker: tracker_n144-06b.wall1.ilabt.iminds.be:localhost/127.0.0.1:47567

EDIT2：いくつかのアイデア？

マッパーはメモリをほとんど必要としないため、ヒープスペースエラーは予期しないものです。
基本クラスを super.run() で呼び出していますが、そのために Toolrunner 呼び出しを使用する必要がありますか?
反復ごとに、約 1000 ワード + スコアのファイルが DistributedCache に追加されます。どこかでキャッシュをリセットする必要があるかどうかわかりません。(super.run() 内のすべてのジョブは job.waitForCompletion() で実行されます。その場合、キャッシュはクリアされますか?)

EDIT3：

@Donald: Hadoop デーモンのメモリのサイズを変更していないため、それぞれ 1GB のヒープが必要です。maptasks には 800 MB のヒープがあり、そのうちの 450 MB が io.sort に使用されます。

@クリス：カウンターは何も変更していません。通常のものを使用しています。それぞれ 16 のカウンターを持つ 1764 のマップタスクがあり、ジョブ自体にはさらに 20 ほどのカウンターがあります。これは確かに 50 個の連続したジョブの後に合計される可能性がありますが、複数の連続したジョブを実行している場合、ヒープに格納されていないと思いますか?

@追加情報：

マップタスクは非常に高速で、タスクごとに 3 ～ 5 秒しかかからず、jvm.reuse=-1 を使用しています。マップタスクは、10 レコードのファイルを処理します (ファイルはブロックサイズよりもはるかに小さいです)。ファイルが小さいため、マッピングのオーバーヘッドを減らすために、100 レコードの入力ファイルを作成することを検討できます。
最初に試みたのは、ユニットリデューサー ( 1 reduce task ) を追加して、HDFS で作成されるファイルの数を減らすことでした (そうしないと、パターンごとに 1 つ、したがってジョブごとに 1000 になり、データノードのオーバーヘッドが生じる可能性があります)。
ジョブあたりのレコード数はかなり少なく、1764 ファイルで特定の単語を探しており、1000 パターンのいずれかに一致する数は合計で約 5000 マップ出力レコードです)

@All:みんな助けてくれてありがとう！

java - for ループでジョブを起動する

0 に答える 0

Related

Reference