2

Javaでは、次を使用します:

MultipleInputs.addInputPath(conf、パス、inputFormatClass、mapperClass)

それぞれに異なるマッパーを持つ複数の入力を追加します。

現在、Python を使用して Hadoop でストリーミング ジョブを作成していますが、同様のジョブを実行できますか?

4

2 に答える 2

3

複数の -input オプションを使用して、複数の入力パスを指定できます。

hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...
于 2012-08-29T17:50:33.820 に答える
1

これが役立つと思います: https://github.com/hyonaldo/hadoop-multiple-streaming

ここでは、「これらの異なる入力パスの異なるマッパー」も確認できます。

hadoop jar hadoop-multiple-streaming.jar \  
  -input    myInputDirs \  
  -multiple "outputDir1|mypackage.Mapper1|mypackage.Reducer1" \  
  -multiple "outputDir2|mapper2.sh|reducer2.sh" \  
  -multiple "outputDir3|mapper3.py|reducer3.py" \  
  -multiple "outputDir4|/bin/cat|/bin/wc" \  
  -libjars  "libDir/mypackage.jar" \
  -file     "libDir/mapper2.sh" \  
  -file     "libDir/mapper3.py" \  
  -file     "libDir/reducer2.sh" \  
  -file     "libDir/reducer3.py"
于 2016-12-12T09:51:15.150 に答える