1

CombineFileInputFormat多くの小さな入力ファイルがあり、いくつかの入力形式を使用してそれらを結合し、起動するマッパー タスクの数を減らしたいと考えています。Java API を使用してこれを実行できることはわかっていますが、Hadoop ストリーミングを使用しているときに、この機能をサポートするストリーミング jar ライブラリがあるかどうかはわかりません。

4

1 に答える 1

2

Hadoop ストリーミングはTextInputFormatデフォルトで使用しますが、 を含む他の入力形式を使用できますCombineFileInputFormat。オプションを使用して、コマンド ラインから入力形式を変更できます-inputformat。必ず古い API を使用して実装してorg.apache.hadoop.mapred.lib.CombineFileInputFormatください。新しい API はまだサポートされていません。

$HADOOP_HOME/bin/hadoop jar \
      $HADOOP_HOME/hadoop-streaming.jar \
      -inputformat foo.bar.MyCombineFileInputFormat \
      -Dmapred.max.split.size=524288000 \
      -Dstream.map.input.ignoreKey=true \
      ...

CombineFileInputFormat の例

于 2013-12-19T00:21:25.820 に答える