hadoop - Hadoop でマッパーにデータを供給する方法は?

Question

Hadoop プログラムへの入力は一連の小さなファイル (10 個のファイル、それぞれのサイズが 60 MB) で、100 個のマッパーを実行します。各マッパーの入力データは、1 つのファイルのみから取得されると想定しています。つまり、入力データが 2 つ (またはそれ以上) のファイルにまたがるマッパーはありません。これは正しい仮定ですか？

score 1 · Accepted Answer

Hadoop プログラムへの入力は一連の小さなファイル (10 個のファイル、それぞれのサイズが 60 MB) であり、100 個のマッパーを実行します。

マッパーの総数を明示的に制御することはできません。マッパーの総数は、ブロックの数と同じです。だから、意味がわからないI run 100 mappers。

各マッパーの入力データは、1 つのファイルのみから取得されると想定しています。

マッパーはデータのブロックを処理し、ファイルはデータのサイズに基づいて 1 つまたは 1 つ以上のブロックに分割できます。

つまり、入力データが 2 つ (またはそれ以上) のファイルにまたがるマッパーはありません。

CombineFileInputFormatを使用すると、1 つのマッパーで複数のファイルを処理できます。

hadoop - Hadoop でマッパーにデータを供給する方法は?

2 に答える 2

Related

Reference