python - Hadoop: 反復マップジョブ間でメモリキャッシュを維持する

翻译自：https://stackoverflow.com/questions/18882498 2013-09-18T21:16:27.227

190 次

クラスター内で map-reduce ジョブを繰り返し呼び出したいと考えています。各反復で、マッパーは約 10000 の大きなレコードを処理する必要があります。各反復で、マスターノードは異なるパラメーターを使用してこれらのマッパーを呼び出しますが、入力レコードは同じままです。マッパーが呼び出されるたびにこれらのレコードをロードする必要はありません。繰り返しにわたってそれらをメインメモリにキャッシュし、新しいパラメータ値を指定して処理するだけでよいでしょう。

Hadoop を実行する AWS Elastic MapReduce を使用する予定で、私の実装は Python を使用しているため、Java API は役に立たないようです。そのアーキテクチャでそのようなキャッシングを実装することは可能ですか? そうでない場合、AWS または他のパブリッククラウドで適切なアーキテクチャは何ですか?

python - Hadoop: 反復マップ ジョブ間でメモリ キャッシュを維持する

1 に答える 1

Related

Reference

python - Hadoop: 反復マップジョブ間でメモリキャッシュを維持する