amazon-ec2 - Numpyに依存するAmazonElasticMapreduceジョブを実行する方法は何ですか？

Question

Mapreduceジョブのマップ部分はNumpyに依存しています。つまり、ブートストラップアクションの一部としてnumpyをインストールする必要があるということです。

私が考えているのは、ブーストラップアクション中にフェッチおよびインストールされるS3に保存されたカスタムNumpyパッケージを構築することです。

もっと良い方法はありますか？

score 1 · Accepted Answer

NumpyはAmazonElasticMapReduceインスタンスにインストールされるようになりましたが、他のモジュールを使用する場合は、それらを圧縮して、DistributedCacheを使用してワーカーに配布し（「-cacheFile」を使用）、Pythonの組み込みでインポートできます。「zipimport」モジュール。

参照：http ：//www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/

amazon-ec2 - Numpyに依存するAmazonElasticMapreduceジョブを実行する方法は何ですか？

1 に答える 1

Related

Reference