python - MapReduce ジョブにカスタムモジュールをインポートする方法は?

Question

からモジュールmain.pyをインポートする MapReduce ジョブがで定義されています。次のように、Hadoop ストリーミングを使用して、このジョブを Hadoop クラスターに送信します。liblib.py

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -files lib.py,main.py 
    -mapper "./main.py map" -reducer "./main.py reduce" 
    -input input -output output

私の理解では、これによりmain.pyとの両方が各コンピューティングマシンlib.pyの分散キャッシュフォルダーlibに配置され、モジュールがで利用できるようになりmainます。しかし、それは起こりません: ログから、ファイルが実際には同じディレクトリにコピーさmainれていることがわかりますが、インポートできずlib、ImportError.

なぜこれが起こり、どうすれば修正できますか?

アップデート。現在のディレクトリをパスに追加しても機能しませんでした:

import sys    
sys.path.append(os.path.realpath(__file__))
import lib
# ImportError

ただし、モジュールを手動でロードするとうまくいきました。

import imp
lib = imp.load_source('lib', 'lib.py')

しかし、それは私が望むものではありません。では、Python インタープリター.pyが同じディレクトリ内の他のファイルを認識しているのに、それらをインポートできないのはなぜでしょうか? __init__.py空のファイルを同じディレクトリに追加しようとしても効果がないことに注意してください。

score 5 · Accepted Answer

Hadoop-Streaming が Python スクリプトを開始するとき、Python スクリプトのパスはスクリプトファイルが実際にある場所です。ただし、hadoop はそれらを './' で開始し、lib.py (シンボリックリンク) も './' にあります。したがって、次のように lib.py をインポートする前に「sys.path.append("./")」を追加してみてください。 import sys sys.path.append('./') import lib

score 1 · Accepted Answer

-filesおよび-archiveスイッチは、Hadoop の分散キャッシュ(DC) への単なるショートカットです。これは、zip、tar、および tgz/tar.gz 形式のアーカイブをアップロードして自動的に解凍することもできる、より一般的なメカニズムです。ライブラリが単一のモジュールではなく、構造化された Python パッケージによって実装されている場合は、後者の機能が必要です。

リリース 1.0.0-rc1 以降、 Pydoopでこれを直接サポートしており、mypkg.tgzアーカイブを構築してプログラムを次のように実行できます。

pydoop submit --upload-archive-to-cache mypkg.tgz [...]

関連するドキュメントはhttp://crs4.github.io/pydoop/self_contained.htmlにあり、ここに完全に機能する例があります ( wheelが必要です): https://github.com/crs4/pydoop/tree/master/examples/自己完結型。

python - MapReduce ジョブにカスタム モジュールをインポートする方法は?

3 に答える 3

Related

Reference

python - MapReduce ジョブにカスタムモジュールをインポートする方法は?