分散キャッシュを介してすべてのマッパーで共有しようとしている 4 GB のファイルがあります。しかし、マップ タスクの試行の開始に大幅な遅延が見られます。具体的には、(job.waitForCompletion() を介して) ジョブを送信してから最初のマップが開始されるまでの間に大幅な遅延があります。
DistributedCache に大きなファイルがある場合の副作用について知りたいです。分散キャッシュ上のファイルは何回レプリケートされますか? クラスタ内のノード数はこれに影響しますか?
(私のクラスターには、各マシンが 10 近くのマップ スロットをホストできる非常に強力なマシンで実行されている約 13 のノードがあります。)
ありがとう