0

これが問題です。

Hive で圧縮された ORC テーブルからデータを読み込もうとしていますが、YARN はオリジナルではなく圧縮データ サイズの値を計算に使用するため、マッパーの正しい量を判断できません。約 100 GB のデータセットに対して 18 人のマッパーしかいないため、これは問題です。

hive.exec.reducers.bytes.per.reducer をいじってみると、リデューサーの数を増やすのに役立ちます。より多くのマッパーを入手する方法はありますか?

前もって感謝します!

4

1 に答える 1

0

次の構成設定を試してみると

set mapreduce.input.fileinputformat.split.maxsize=100000;
set mapreduce.input.fileinputformat.split.minsize=100000;

最大値を減らすと、より多くのマッパーを取得する必要があります。とにかくうまくいくはずだと思います!

于 2016-02-18T16:01:27.897 に答える