いくつかの場所では、Hadoop ジョブのデフォルトのレデューサー数は 1 であると言われています。 mapred.reduce.tasks シンボルを使用して、レデューサーの数を手動で設定できます。
(Amazon EMR、AMI 2.3.3 で) Hive ジョブを実行すると、複数のレデューサーが含まれています。ジョブの設定を見ると、mapred.reduce.tasks が設定されています。Hive だと思います。その番号をどのように選択しますか?
注: Hive ジョブの実行中に手がかりとなるいくつかのメッセージを次に示します。
...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
...