私のMap/Reduceプログラムは、S3から頻繁にファイルを要求しています。レデューサーでは、Amazon S3にファイルを頻繁にリクエストしており、同じファイルを複数回リクエストする場合があります(各ファイルは1MBから12MBの間で約10Kファイルです)。Hadoop分散キャッシュを使用すると、これらすべてのファイルがすべてのワーカーノードにコピーされるため効率的ではありませんが(私が理解しているように)、レデューサーフェーズのようにこれらを実行したくないので、10Kファイルからのみ1000ファイルを要求できます。さらに、レデューサーがファイルの前に要求した場合、レデューサーが再度要求した場合は、再度要求したくありません。誰かがワーカーノードにehcacheやoscacheのようなキャッシングフレームワークを実装したかどうか尋ねていますか?または、要求されたファイルのみをワーカーマシンのディスクにキャッシュする方法はありますか?
ありがとうYahia