いくつかの情報と統計についてmapreduceにクエリを実行する必要があるhadoopmapreduceにサードパーティのフロントエンドを作成したいと思います。
今のところ、私はhadoop job
ジョブとマップをクエリし、完了率を減らすために、カウンターとともに使用することができます。例:
# hadoop job -status job_201212170023_0127
Job: job_201212170023_0127
map() completion: 0.6342382
reduce() completion: 0.0
Counters: 28
Job Counters
SLOTS_MILLIS_MAPS=4537
...
また、ジョブトラッカー内の視覚化で使用される各タスクの数も必要です。
すべてのマッパーを一覧表示できます...
# hadoop job -list-attempt-ids job_201212170023_0127 map running
attempt_201212170023_0127_m_000000_0
attempt_201212170023_0127_m_000001_0
attempt_201212170023_0127_m_000002_0
...
..しかし、これらの各タスクのパーセンテージを取得するにはどうすればよいですか?理想的には、次のようなものが必要です。
# hadoop job -task-status attempt_201212170023_0127_m_000000_0
completion: 0.6342382
start: 2012-12-18T12:23:34Z
... etc.
現在の解決策はWebインターフェイスをスクレイピングすることですが、コマンドライン出力を使用できるのであれば、私はこれが好きではありません。