java - Hadoop ジョブトラッカー API に関する混乱

Question

ジョブトラッカーから情報を収集しようとしています。手始めに、ジョブ ID やジョブ名などの実行中のジョブ情報を取得することから始めたいと思います。

public static void main(String[] args) throws IOException {
        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum", "zk1.myhost,zk2.myhost,zk3.myhost");
        conf.set("hbase.zookeeper.property.clientPort", "2181");

        InetSocketAddress jobtracker = new InetSocketAddress("jobtracker.mapredhost.myhost", 8021);
        JobClient jobClient = new JobClient(jobtracker, conf);
        JobStatus[] jobs = jobClient.jobsToComplete();

        for (int i = 0; i < jobs.length; i++) {
            JobStatus js = jobs[i];
            if (js.getRunState() == JobStatus.RUNNING) {
                JobID jobId = js.getJobID();
                System.out.println(jobId);
            }
        }
    }

これは、ジョブ ID を表示しようとすると魅力的に機能しますが、ジョブ名も表示したいと思います。したがって、ジョブ ID を印刷した後に次の行を追加しました。

System.out.println(jobClient.getJob(jobId).getJobName());

私はこの例外を受け取ります:

Exception in thread "main" java.lang.NullPointerException
    at org.apache.hadoop.mapred.JobClient$NetworkedJob.<init>(JobClient.java:226)
    at org.apache.hadoop.mapred.JobClient.getJob(JobClient.java:1080)
    at org.apache.test.JobTracker.main(JobTracker.java:28)

jobClientありませんnull。ヌルチェックif文でやってみたのでわかるのですが、これjobClient.getJob(jobId)はnull. ここで何が間違っていますか？

APIによると、私は大丈夫なはずですが、

http://hadoop.apache.org/mapreduce/docs/r0.21.0/api/org/apache/hadoop/mapred/JobClient.html#getJob(org.apache.hadoop.mapred.JobID)

最初にRunningJobjobClient から取得し、ジョブを実行してから名前を取得しますhttp://hadoop.apache.org/mapreduce/docs/r0.21.0/api/org/apache/hadoop/mapred/RunningJob.html#getJobName()

誰かが前にこのようなことをしましたか？jsoupを使用して GET リクエストでこの情報を取得することもできますが、この情報を取得するにはこちらの方がよい方法だと思います。

ここでの質問の更新は、私の hadoop/hbase の依存関係です:

<dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>0.23.1-mr1-cdh4.0.0b2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>0.23.1-mr1-cdh4.0.0b2</version>
            <exclusions>
                <exclusion>
                    <groupId>org.mortbay.jetty</groupId>
                    <artifactId>jetty</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>javax.servlet</groupId>
                    <artifactId>servlet-api</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase</artifactId>
            <version>0.92.1-cdh4b2-SNAPSHOT</version>
        </dependency>

報奨金の更新:

これが私の輸入品です：

import java.io.IOException;
import java.net.InetSocketAddress;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobID;
import org.apache.hadoop.mapred.JobStatus;

の出力は次のSystem.out.println(jobId)とおりです。

job_201207031810_1603

現在実行中のジョブは 1 つだけです。

score 17 · Accepted Answer

の内部クラスNetworkedJobを見てくださいJobClient。
(ソース: /home/user/hadoop/src/mapred/org/apache/hadoop/mapred/JobClient.java)

Configurationそのコンストラクターは 225 行目からオブジェクトを取得しようとしますが、設定されていないJobClientため nullです。new JobClient(InetSocketAddress jobTrackAddr, Configuration conf)

// Set the completion poll interval from the configuration.
      // Default is 5 seconds.
      Configuration conf = JobClient.this.getConf();
      this.completionPollIntervalMillis = conf.getInt(COMPLETION_POLL_INTERVAL_KEY,
          DEFAULT_COMPLETION_POLL_INTERVAL); //NPE occurs here!

回避策として、JobClient オブジェクトを作成した後に手動で設定してください。これで問題が解決します：

..
JobClient jobClient = new JobClient(jobtracker, conf);
jobClient.setConf(conf); 
....

サイドノート：

Configuration次の方法でオブジェクトをインスタンス化しました。

Configuration conf = new Configuration();
conf.addResource(new Path("/path_to/core-site.xml"));
conf.addResource(new Path("/path_to/hdfs-site.xml"));

java - Hadoop ジョブ トラッカー API に関する混乱

1 に答える 1

Related

Reference

java - Hadoop ジョブトラッカー API に関する混乱