map - タスク入力データのマップ

Question

map/reduceは初めてです。1つのマップタスクの入力が異なるサーブにある可能性はありますか？map / reduceを使用して「単語数」をシミュレートし、データを1行ずつ（各行を1つに）分割するとします。各マップタスクが1つのデータを参照し、その部分の各単語の出現回数をカウントするというのは本当ですか？

score 1 · Accepted Answer

データは InputSplit クラスを使用して分割されます。独自の入力分割クラスを定義できます。入力分割の数はマッパーの数と同じです。したがって、理論的には、入力行と同じ数のマッパーがあり、inputsplit をそのように記述した場合、各行を map タスクへの入力として供給することができます。一般に、map タスクの入力は同じマシン上にあります。Map Reduce フレームワークは、この方法でのみマップタスクをスケジュールします。map reduce の基本を読むことをお勧めします。優れたビデオチュートリアルは、cloudera の Web サイトで入手できます。

score 1 · Accepted Answer

入力ファイルは hdfs ブロックサイズに基づいて分割され、この分割ごとに正確に 1 つのマップタスクが生成されます。

たとえば、デフォルトでは、hdfs ブロックサイズは 64 MB です。入力ファイルのサイズが 50MB だとしましょう。このファイルを hdfs にロードすると、25 MB ごとに 2 つの分割に分割されます。したがって、2 つのマップタスクが生成され、各入力分割で動作します。1 つの入力分割に 100 行あると仮定すると、マッパークラス (タスク) は、行ごとに 1 回ずつ、map メソッドを 100 回呼び出します。

map - タスク入力データのマップ

2 に答える 2

Related

Reference