0

分散キャッシュにファイルがあります。ドライバー クラスは、ジョブの出力に基づいて、このファイルを更新し、新しいジョブを開始します。新しいジョブにはこれらの更新が必要です。

私が現在行っている方法は、古い分散キャッシュ ファイルを新しいもの (更新されたもの) に置き換えることです。

ファイルを必要とするすべてのタスクトラッカーに差分 (古いファイルと新しいファイルの間) をブロードキャストする方法はありますか?

それとも、ジョブ(私の場合は最初のもの)が終了した後、そのジョブに固有のすべてのディレクトリ/ファイルが削除され、その結果、この方向で考えるのは意味がありませんか?

4

1 に答える 1

0

分散キャッシュはそのようなシナリオを念頭に置いて構築されていないと思います。ファイルをローカルに配置するだけです。
あなたの場合、ファイルを HDFS に配置し、すべての関係者にそこからファイルを取得させることをお勧めします
。最適化として、このファイルに高いレプリケーション係数を与えることができ、ほとんどのタスクに対してローカルになります。

于 2012-08-24T15:09:30.993 に答える