この前の質問では、hadoop ストリーミング用に nltk などのモジュールをインポートする方法について説明しました。
概説された手順は次のとおりです。
zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod
Python スクリプトで使用するために nltk モジュールをインポートできるようになりました: import zipimport
importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')
Amazon の EMRで実行したいジョブがありますが、zip ファイルをどこに置くべきかわかりません。ブートストラップ オプションの下にブートストラップ スクリプトを作成する必要がありますか、それとも tar.gz を S3 に配置してから追加の引数に配置する必要がありますか? 私はこれらすべてにかなり慣れていないので、プロセスを順を追って説明できる回答をいただければ幸いです。