mrjob を使用して Amazon の Elastic MapReduce で Python コードを実行すると、EMR イメージの numpy と scipy をアップグレードする方法が見つかりました。
コンソールから実行すると、次のコマンドが機能します。
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
これにより、最新の numpy と scipy がイメージに正常にブートストラップされ、完全に機能します。私の質問は速度の問題です。これは、小さなインスタンスにインストールするのに 21 分かかります。
numpy と scipy をアップグレードするプロセスをスピードアップする方法を知っている人はいますか?