クラスター内で map-reduce ジョブを繰り返し呼び出したいと考えています。各反復で、マッパーは約 10000 の大きなレコードを処理する必要があります。各反復で、マスター ノードは異なるパラメーターを使用してこれらのマッパーを呼び出しますが、入力レコードは同じままです。マッパーが呼び出されるたびにこれらのレコードをロードする必要はありません。繰り返しにわたってそれらをメインメモリにキャッシュし、新しいパラメータ値を指定して処理するだけでよいでしょう。
Hadoop を実行する AWS Elastic MapReduce を使用する予定で、私の実装は Python を使用しているため、Java API は役に立たないようです。そのアーキテクチャでそのようなキャッシングを実装することは可能ですか? そうでない場合、AWS または他のパブリック クラウドで適切なアーキテクチャは何ですか?