hadoop - データの局所性を維持する Hadoop スケジューラー

Question

いくつかのドキュメントを確認しましたが、データの局所性を維持する Hadoop でのタスクスケジューリングに関して疑問があります。タスクの入力データtがD1で、レプリケーションファクターが 3 であると仮定すると (つまり、3 つの異なるサーバーに D1 の 3 つのコピーが保存されていることを意味します)、tが到着すると、どのサーバーtに割り当てられますか? （デフォルトのスケジューラを考慮して）。

score 1 · Accepted Answer

Hadoop は、使用可能なすべてのマッパースロットを使用しようとします。データの局所性を維持するタスクを割り当てる方法がある場合は、それを実行します (つまり、D1 のコピーを含む 3 台のサーバーのいずれかに利用可能なマッパースロットがある場合、そのサーバーに配置しようとします)。これら 3 つのサーバーのすべてのマッパーが占有されているが、使用可能なマッパースロットを持つ別のサーバーがある場合、タスクはそのマッパーに配置されます。

hadoop - データの局所性を維持する Hadoop スケジューラー

1 に答える 1

Related

Reference