1

とにかく、map reduce フレームワークではノード間で多くのファイル転送があります。次に、分散キャッシュを使用するとパフォーマンスがどのように向上しますか。

4

2 に答える 2

0

DistributedCache は、アプリケーションが必要とするファイルをキャッシュするために Map-Reduce フレームワークによって提供される機能です。ジョブのファイルをキャッシュすると、hadoop フレームワークは、マップ/リデュース タスクが実行されているすべてのデータ ノード (メモリ内ではなくファイル システム内) でそのファイルを使用できるようにします。ファイルはネットワーク経由で転送されますが、通常は HDFS 経由です。データ以外のローカル タスクに HDFS を使用するよりも、ネットワークに負担をかけることはありません。

于 2015-06-29T06:19:05.640 に答える
0
  1. プログラムの実行中は、大量のファイル転送はありません。アイデアは、ネットワーク データ転送を最小限に抑えることです。これが、計算がデータの近くに移動される理由です。
  2. 分散キャッシュは、そのデータの一部 (タスク分割) のみが必要な通常のデータとは異なり、すべての map または reduce タスクで必要とされるデータです。そのため、タスクを実行するすべてのノードに分散されます。
于 2015-07-01T01:31:42.050 に答える