0

Hadoopストリーミングについて簡単に質問します。Pythonストリーミングを使用していて、マッパー/レデューサーが必要とするPythonパッケージがあるが、デフォルトでインストールされていない場合、それらをすべてのHadoopマシンにもインストールする必要がありますか、それともそれらをに送信する何らかのシリアル化がありますか?リモートマシン?

4

2 に答える 2

2

タスクボックスにインストールされていない場合は、-fileを使用して送信できます。パッケージまたはその他のディレクトリ構造が必要な場合は、zipファイルを送信できます。zipファイルは解凍されます。Haddop0.17の呼び出しは次のとおりです。

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip

ただし、注意事項については、この問題を参照してください。

https://issues.apache.org/jira/browse/MAPREDUCE-596

于 2010-05-19T22:44:17.430 に答える
1

Dumboを使用する場合は、-libeggを使用してeggファイルを配布し、Pythonランタイムを自動構成できます。

https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files

于 2012-03-15T20:56:26.190 に答える