Mapreduceジョブのマップ部分はNumpyに依存しています。つまり、ブートストラップアクションの一部としてnumpyをインストールする必要があるということです。
私が考えているのは、ブーストラップアクション中にフェッチおよびインストールされるS3に保存されたカスタムNumpyパッケージを構築することです。
もっと良い方法はありますか?
Mapreduceジョブのマップ部分はNumpyに依存しています。つまり、ブートストラップアクションの一部としてnumpyをインストールする必要があるということです。
私が考えているのは、ブーストラップアクション中にフェッチおよびインストールされるS3に保存されたカスタムNumpyパッケージを構築することです。
もっと良い方法はありますか?
NumpyはAmazonElasticMapReduceインスタンスにインストールされるようになりましたが、他のモジュールを使用する場合は、それらを圧縮して、DistributedCacheを使用してワーカーに配布し(「-cacheFile」を使用)、Pythonの組み込みでインポートできます。 「zipimport」モジュール。
参照:http ://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/