私はPythonでMapReduceジョブを書いていますが、のようないくつかの3番目のライブラリを使用したいと思いますchardet。
オプションを使用して、JavaMapReduce-libjars=...にそれらを含めることができると思います。
しかし、Python MapReduceジョブにサードパーティのライブラリを含めるにはどうすればよいですか?
ありがとうございました!
問題は によって解決されましたzipimport。
次にchardet、 fileに圧縮しmodule.mod、次のように使用します。
importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')
-file module.modHadoop ストリーミング コマンドを追加します。
chardetスクリプトで使用できるようになりました。
詳細は、Hadoop ストリーミング ジョブに Python パッケージを含めるにはどうすればよいですか? を参照してください。