hadoop - ORC から読み取るときにマッパーの数を増やす

Question

これが問題です。

Hive で圧縮された ORC テーブルからデータを読み込もうとしていますが、YARN はオリジナルではなく圧縮データサイズの値を計算に使用するため、マッパーの正しい量を判断できません。約 100 GB のデータセットに対して 18 人のマッパーしかいないため、これは問題です。

hive.exec.reducers.bytes.per.reducer をいじってみると、リデューサーの数を増やすのに役立ちます。より多くのマッパーを入手する方法はありますか?

前もって感謝します！

score 0 · Accepted Answer

次の構成設定を試してみると

set mapreduce.input.fileinputformat.split.maxsize=100000;
set mapreduce.input.fileinputformat.split.minsize=100000;

最大値を減らすと、より多くのマッパーを取得する必要があります。とにかくうまくいくはずだと思います！

1 に答える 1