Hadoopストリーミングについて簡単に質問します。Pythonストリーミングを使用していて、マッパー/レデューサーが必要とするPythonパッケージがあるが、デフォルトでインストールされていない場合、それらをすべてのHadoopマシンにもインストールする必要がありますか、それともそれらをに送信する何らかのシリアル化がありますか?リモートマシン?
1030 次
2 に答える
2
タスクボックスにインストールされていない場合は、-fileを使用して送信できます。パッケージまたはその他のディレクトリ構造が必要な場合は、zipファイルを送信できます。zipファイルは解凍されます。Haddop0.17の呼び出しは次のとおりです。
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
ただし、注意事項については、この問題を参照してください。
于 2010-05-19T22:44:17.430 に答える
1
Dumboを使用する場合は、-libeggを使用してeggファイルを配布し、Pythonランタイムを自動構成できます。
https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files
于 2012-03-15T20:56:26.190 に答える