hadoop - 入力ファイルがマップノードより小さい場合の Hadoop スケジューラの動作

Question

私の状況では、Jobcontrol に 2 つのジョブがあり、次に 200 のマップノードがあるかどうかを知る必要があります。ブロックサイズは 64 MB なので、完全な処理データは (64*200 = 12.8GB) である必要がありますが、最初のジョブサイズは 10 GB です。マップノードに空のスロットがある場合はどうしますか? Hadoop はキュー内の 2 番目のジョブを処理するか、最初のジョブマップが終了して 2 番目のジョブを処理するまで待機するか、別の方法を提案してください

score 0 · Accepted Answer

Hadoop の FIFO スケジューラを使用していて、同じユーザーとして 2 つのジョブを実行している場合、最初のジョブの実行中に十分な空き Map/Reduce スロットが利用できる場合にのみ、2 番目のジョブの実行が開始されます。ジョブがあったとしても、スケジューラーによって、2 番目のジョブよりも 1 番目のジョブが優先されます。そのため、Hadoop は最初のジョブが十分に終了するのを待ってから、2 番目のジョブがスケジュールされます。

単一の大きなファイルと比較すると、namenode はより多くのファイル inode を管理する必要があるため、通常、入力分割サイズよりも小さいファイルを使用することはお勧めしません。

hadoop - 入力ファイルがマップ ノードより小さい場合の Hadoop スケジューラの動作

1 に答える 1

Related

Reference

hadoop - 入力ファイルがマップノードより小さい場合の Hadoop スケジューラの動作