hadoop - hadoop FIFO スケジューリングでは、送信されたジョブが並行して実行されませんか?

Question

私は 4000 個のマップでマップ容量を構成し、FIFO モードの理解と、Hadoop でジョブを並列に実行するリンクに基づいて、500 個のマップで各ジョブを構成しました。ただし、送信した 8 つのジョブが連続して実行されているのをまだ確認できますが、これは奇妙な感じです。別の方法は、公正なスケジューラを試すことですが、他にも実行中のバグがいくつかあります...これを並行して実行するにはどうすればよいですか?

現在利用者は私一人です。

質問: 実行中のジョブの合計について、ジョブトラッカーの Web UI には何が表示されますか?

実際には 80 個のジョブを送信したため、[実行中のジョブ] セクションに 80 個のジョブが表示されるため、すべてのジョブが正常に送信されますが、順番に実行されます。

質問: 現在、いくつの入力ファイルを処理していますか? これは、ジョブのマッパーの数に関して何に関係していますか?

ジョブごとに、mapred-site.xml で map.task.num=500 を設定して 500 のマップを構成します。

以下は情報です

種類 % 完了保留中のタスク数実行中完了強制終了失敗/強制終了タスク試行回数

マップ 1.40% 500 402 91 7 0 0 / 0

削減 0.00% 1 1 0 0 0 0 / 0

質問: 500 個のマップのみを実行するように入力形式を構成できますが、Hadoop がこの値を無視する場合があります。たとえば、500 個を超える入力ファイルがある場合です。

実行するマッパーの数が、mapred-site.xml で構成したマッパーの数と正確に一致するように、inputformat をカスタマイズしたので、これは起こらないと確信しています。

質問: ジョブを開始するとき、実行しているファイルの数、使用している入力形式は何か、入力ファイルでファイル圧縮を使用している場合は何を使用しているか

わかりました、実際には 1 つのファイルだけを実行しますが、このファイルはすべての maptask に完全にロードされるため、実際には distrbutecache メカニズムを使用して、各 maptask がこのファイルを完全にロードできるようにします。現在、圧縮は使用していません

質問: 構成されたマッパーとリデューサーのスロットの総数について、ジョブトラッカーは何を示していますか? これは、5000 という期待値と一致しますか?

以下は情報です

マップは TotalSubmissions ノードを削減しますマップタスクキャパシティはタスクキャパシティを削減します平均。タスク/ノードブラックリストに登録されたノード

83 0 80 8 4000 80 510.00 0

score 0 · Accepted Answer

FairSchedulerまたはCapacitySchedulerのどちらを実行する場合でも、ジョブを並行して実行できるはずですが、ジョブが順番に実行されることがわかる理由がいくつかあります。

クラスターを使用しているのはあなただけですか、そうでない場合は、他に何人がクラスターを使用していますか。
- 質問：実行中のジョブの合計について、ジョブトラッカーのWeb UIには何が表示されますか？
特定の時点でクラスター上で実行されているジョブが実際に唯一の場合は、ジョブトラッカーのWeb UIで、現在実行中のジョブを確認してください。現在処理している入力ファイルの数はいくつですか。これは、ジョブのマッパーの数に関して何に関係していますか？
- 500個のマップのみを実行するように入力形式を構成できますが、Hadoopがこの値を無視する場合があります。たとえば、500個を超える入力ファイルがある場合です。
- 質問：ジョブを開始するとき、実行しているファイルの数、使用している入力形式は何ですか、入力ファイルでファイル圧縮を使用している場合はどうなりますか
質問：構成されたマッパースロットとレデューサースロットの総数について、ジョブトラッカーは何を表示しますか？これはあなたの期待値5000と一致しますか？

hadoop - hadoop FIFO スケジューリングでは、送信されたジョブが並行して実行されませんか?

1 に答える 1

Related

Reference