Javaでは、次を使用します:
MultipleInputs.addInputPath(conf、パス、inputFormatClass、mapperClass)
それぞれに異なるマッパーを持つ複数の入力を追加します。
現在、Python を使用して Hadoop でストリーミング ジョブを作成していますが、同様のジョブを実行できますか?
複数の -input オプションを使用して、複数の入力パスを指定できます。
hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...
これが役立つと思います: https://github.com/hyonaldo/hadoop-multiple-streaming。
ここでは、「これらの異なる入力パスの異なるマッパー」も確認できます。
hadoop jar hadoop-multiple-streaming.jar \
-input myInputDirs \
-multiple "outputDir1|mypackage.Mapper1|mypackage.Reducer1" \
-multiple "outputDir2|mapper2.sh|reducer2.sh" \
-multiple "outputDir3|mapper3.py|reducer3.py" \
-multiple "outputDir4|/bin/cat|/bin/wc" \
-libjars "libDir/mypackage.jar" \
-file "libDir/mapper2.sh" \
-file "libDir/mapper3.py" \
-file "libDir/reducer2.sh" \
-file "libDir/reducer3.py"