CombineFileInputFormat
多くの小さな入力ファイルがあり、いくつかの入力形式を使用してそれらを結合し、起動するマッパー タスクの数を減らしたいと考えています。Java API を使用してこれを実行できることはわかっていますが、Hadoop ストリーミングを使用しているときに、この機能をサポートするストリーミング jar ライブラリがあるかどうかはわかりません。
質問する
1909 次
1 に答える
2
Hadoop ストリーミングはTextInputFormat
デフォルトで使用しますが、 を含む他の入力形式を使用できますCombineFileInputFormat
。オプションを使用して、コマンド ラインから入力形式を変更できます-inputformat
。必ず古い API を使用して実装してorg.apache.hadoop.mapred.lib.CombineFileInputFormat
ください。新しい API はまだサポートされていません。
$HADOOP_HOME/bin/hadoop jar \
$HADOOP_HOME/hadoop-streaming.jar \
-inputformat foo.bar.MyCombineFileInputFormat \
-Dmapred.max.split.size=524288000 \
-Dstream.map.input.ignoreKey=true \
...
于 2013-12-19T00:21:25.820 に答える