FileInputFormat isSplitable メソッドについての答えを知っていると思う簡単な質問があります。このメソッドをオーバーライドして false を返すと、当然、単一のマッパーがファイルを処理します (ファイルは 1 つしかありません)。このファイルが HDFS 全体に分散されている場合、そのすべてが 1 つのマッパーにプルされます。マッパーで処理し、リデューサーに送信するキーと値のペアを作成するときに、それらを多数作成すると、データの局所性を利用するためにクラスター全体に分散されますか、それとも何らかの暗黙的なものがありますかisSplitable false にした場合、それはもう起こらないという結果ですか?
質問する
1697 次
1 に答える
4
falseをisSplitable
返すと、単一のマッパーのみがファイル全体を処理します。マッパーは任意の数の KV ペアを発行できます。
レデューサーに関して言えば、データの局所性という概念はなく、次に利用可能な空いている Reduce スロットが使用されます。参考までに、従来の MR アーキテクチャの場合、各ノードに Map と Reduce のスロットがありますが、YARNの場合は、スロットの概念はありません。
レデューサーは、スロットの可用性に基づいて、または YARN の場合は ResourceManager が返すものに基づいて、複数のノードに分散できます。
于 2013-01-13T12:35:29.443 に答える