hadoop - 任意の数のマッパーを設定する

Question

Hadoop でのマッパーの設定方法を知るために、stackoverflow と apache wiki に関する多くのブログを調べました。また、[ hadoop - 合計マッパーがどのように決定されるか] [この] 投稿も確認しました。InputFormat に基づいていると言う人もいれば、入力ファイル ID が分割されたブロックの数に基づいていると言う投稿もあります。

デフォルト設定に戸惑っています。

wordcount の例を実行すると、マッパーが 2 と少ないことがわかります。設定で実際に何が起こっているのでしょうか? この投稿もQuasiMonteCarlo.java] [プログラム例]. ここでは、ユーザー入力に基づいてマッパーを設定します。この設定を手動で行うにはどうすればよいですか?

マッパーがどのように機能するかについての助けと理解をいただければ幸いです。

前もって感謝します

score 0 · Accepted Answer

Java システムプロパティmapred.min.split.sizeをmapred.max.split.size使用して、必要な分割サイズを使用するよう Hadoop をガイドします。これは常に機能するとは限りません。特に、データが分割できない圧縮形式である場合 (たとえば、gz ですが、bzip2 は分割可能です)。

したがって、より多くのマッパーが必要な場合は、より小さい分割サイズを使用してください。単純！

(要求に応じて更新) 現在、これは多くの小さなファイルでは機能しません。特に、必要以上のマッパーが作成されることになります。この状況では、 CombineFileInputFormat... を Scalding で使用する SO の説明:複数のファイルを単一のマッパーに結合する TextLine のような Scalding ソースを作成する

hadoop - 任意の数のマッパーを設定する

1 に答える 1

Related

Reference