hadoop - Hadoop の HDFS 以外のファイルシステムでは、データの局所性はどのように利用されていますか?

Question

Hadoop は、ネットワーク帯域幅を節約するために map-reduce ジョブを生成するためにデータの局所性の原則を使用することがわかっています。これがどのように機能するかの説明は次のとおりです。

Hadoop は、データがローカルに存在するノードでマップタスクを実行して、ネットワークとノード間通信の遅延を最適化しようとします。入力データは断片に分割され、異なるマップタスクに供給されるため、そのマップタスクに供給されるすべてのデータを 1 つのノードで使用できるようにすることが望ましいです。が 1 つのノードに存在する場合、マップタスクがこのデータのローカライゼーションを利用できるように、分割サイズを HDFS ブロックサイズと等しくすることをお勧めします。

Hadoop は、基礎となるファイルシステムが HDFS でなくても、map-reduce ジョブを実行できます (つまり、Amazon の S3 などの他のファイルシステムで実行できます)。さて、この場合、データの局所性はどのように説明されるのでしょうか? HDFS の場合、namenode にはすべてのブロック位置情報があり、それを使用して、マッパーは可能な限りデータの近くに生成されました。ただし、他のファイルシステムにはネームノードの概念がありません。では、Hadoop MapReduce フレームワーク (JobTracker および TaskTracker) は、ジョブの実行時にデータの場所の原則を適用するために、どのようにデータの場所を学習するのでしょうか?

score 5 · Accepted Answer

あなたが言及したように、S3 のようなファイルシステムは実行するために namenonde を必要としません。この場合、データ局所性の最適化は利用できません。

参照: http://wiki.apache.org/hadoop/AmazonS3

hadoop - Hadoop の HDFS 以外のファイルシステムでは、データの局所性はどのように利用されていますか?

1 に答える 1

Related

Reference