17

いくつかの場所では、Hadoop ジョブのデフォルトのレデューサー数は 1 であると言われています。 mapred.reduce.tasks シンボルを使用して、レデューサーの数を手動で設定できます。

(Amazon EMR、AMI 2.3.3 で) Hive ジョブを実行すると、複数のレデューサーが含まれています。ジョブの設定を見ると、mapred.reduce.tasks が設定されています。Hive だと思います。その番号をどのように選択しますか?

注: Hive ジョブの実行中に手がかりとなるいくつかのメッセージを次に示します。

...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
...
4

1 に答える 1