これが問題です。
Hive で圧縮された ORC テーブルからデータを読み込もうとしていますが、YARN はオリジナルではなく圧縮データ サイズの値を計算に使用するため、マッパーの正しい量を判断できません。約 100 GB のデータセットに対して 18 人のマッパーしかいないため、これは問題です。
hive.exec.reducers.bytes.per.reducer をいじってみると、リデューサーの数を増やすのに役立ちます。より多くのマッパーを入手する方法はありますか?
前もって感謝します!