Hadoop プログラムへの入力は一連の小さなファイル (10 個のファイル、それぞれのサイズが 60 MB) で、100 個のマッパーを実行します。各マッパーの入力データは、1 つのファイルのみから取得されると想定しています。つまり、入力データが 2 つ (またはそれ以上) のファイルにまたがるマッパーはありません。これは正しい仮定ですか?
質問する
113 次
2 に答える
1
Hadoop プログラムへの入力は一連の小さなファイル (10 個のファイル、それぞれのサイズが 60 MB) であり、100 個のマッパーを実行します。
マッパーの総数を明示的に制御することはできません。マッパーの総数は、ブロックの数と同じです。だから、意味がわからないI run 100 mappers
。
各マッパーの入力データは、1 つのファイルのみから取得されると想定しています。
マッパーはデータのブロックを処理し、ファイルはデータのサイズに基づいて 1 つまたは 1 つ以上のブロックに分割できます。
つまり、入力データが 2 つ (またはそれ以上) のファイルにまたがるマッパーはありません。
CombineFileInputFormatを使用すると、1 つのマッパーで複数のファイルを処理できます。
于 2013-10-28T18:56:46.087 に答える