私はPythonでMapReduceジョブを書いていますが、のようないくつかの3番目のライブラリを使用したいと思いますchardet
。
オプションを使用して、JavaMapReduce-libjars=...
にそれらを含めることができると思います。
しかし、Python MapReduceジョブにサードパーティのライブラリを含めるにはどうすればよいですか?
ありがとうございました!
問題は によって解決されましたzipimport
。
次にchardet
、 fileに圧縮しmodule.mod
、次のように使用します。
importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')
-file module.mod
Hadoop ストリーミング コマンドを追加します。
chardet
スクリプトで使用できるようになりました。
詳細は、Hadoop ストリーミング ジョブに Python パッケージを含めるにはどうすればよいですか? を参照してください。