hadoop - 疑似分散数マップとリデュースタスク

Question

私はHadoopの初心者です。疑似分散モードで Hadoop セットアップを正常に構成しました。map と reduce タスクの数を選択するロジックが何であるかを知りたいと思います。私たちは何を参照していますか？

ありがとう

score 0 · Accepted Answer

実は違う。マッパーの数は、主に No. 使用している InputFormat によって作成された InputSplits と no. いいえによるレデューサーの。マップフェーズの後に取得するパーティションの数。そうは言っても、使用可能なメモリとともに、スレーブごとに使用可能なスロットの数も覚えておく必要があります。ただし、経験則として、次のアプローチを使用できます。

いいえを取ります。仮想 CPU の数*.75 であり、それが第 1 位です。構成できるスロットの。たとえば、12 個の物理コア (または 24 個の仮想コア) がある場合、(24*.75)=18 スロットになります。ここで、要件に基づいて、使用するマッパーとレデューサーの数を選択できます。18 の MR スロットを使用すると、9 つのマッパーと 9 つのレデューサー、または 12 のマッパーと 9 つのレデューサーなど、問題ないと思われるものを使用できます。

HTH

hadoop - 疑似分散数マップとリデュース タスク

2 に答える 2

Related

Reference

hadoop - 疑似分散数マップとリデュースタスク