私は 4000 個のマップでマップ容量を構成し、FIFO モードの理解と、Hadoop でジョブを並列に実行するリンクに基づいて、500 個のマップで各ジョブを構成しました 。ただし、送信した 8 つのジョブが連続して実行されているのをまだ確認できますが、これは奇妙な感じです。別の方法は、公正なスケジューラを試すことですが、他にも実行中のバグがいくつかあります...これを並行して実行するにはどうすればよいですか?
現在利用者は私一人です。
質問: 実行中のジョブの合計について、ジョブ トラッカーの Web UI には何が表示されますか?
実際には 80 個のジョブを送信したため、[実行中のジョブ] セクションに 80 個のジョブが表示されるため、すべてのジョブが正常に送信されますが、順番に実行されます。
質問: 現在、いくつの入力ファイルを処理していますか? これは、ジョブのマッパーの数に関して何に関係していますか?
ジョブごとに、mapred-site.xml で map.task.num=500 を設定して 500 のマップを構成します。
以下は情報です
種類 % 完了 保留中のタスク数 実行中 完了 強制終了 失敗/強制終了 タスク試行回数
マップ 1.40% 500 402 91 7 0 0 / 0
削減 0.00% 1 1 0 0 0 0 / 0
質問: 500 個のマップのみを実行するように入力形式を構成できますが、Hadoop がこの値を無視する場合があります。たとえば、500 個を超える入力ファイルがある場合です。
実行するマッパーの数が、mapred-site.xml で構成したマッパーの数と正確に一致するように、inputformat をカスタマイズしたので、これは起こらないと確信しています。
質問: ジョブを開始するとき、実行しているファイルの数、使用している入力形式は何か、入力ファイルでファイル圧縮を使用している場合は何を使用しているか
わかりました、実際には 1 つのファイルだけを実行しますが、このファイルはすべての maptask に完全にロードされるため、実際には distrbutecache メカニズムを使用して、各 maptask がこのファイルを完全にロードできるようにします。現在、圧縮は使用していません
質問: 構成されたマッパーとリデューサーのスロットの総数について、ジョブ トラッカーは何を示していますか? これは、5000 という期待値と一致しますか?
以下は情報です
マップは TotalSubmissions ノードを削減します マップ タスク キャパシティはタスク キャパシティを削減します 平均。タスク/ノード ブラックリストに登録されたノード
83 0 80 8 4000 80 510.00 0