1

Mapreduceジョブのマップ部分はNumpyに依存しています。つまり、ブートストラップアクションの一部としてnumpyをインストールする必要があるということです。

私が考えているのは、ブーストラップアクション中にフェッチおよびインストールされるS3に保存されたカスタムNumpyパッケージを構築することです。

もっと良い方法はありますか?

4

1 に答える 1

1

NumpyはAmazonElasticMapReduceインスタンスにインストールされるようになりましたが、他のモジュールを使用する場合は、それらを圧縮して、DistributedCacheを使用してワーカーに配布し(「-cacheFile」を使用)、Pythonの組み込みでインポートできます。 「zipimport」モジュール。

参照:http ://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/

于 2012-02-09T06:19:14.400 に答える