Hadoop ストリーミングに Amazon AWS、Dynamo DB、および EMR クラスターを使用しています。私の削減タスクは Dynamo テーブルに書き込みます。たとえば、書き込みスループットの 50% など、テーブルへの書き込みの上限を確立して順守する必要があります。
テーブルの書き込みスループット設定を照会し、mapred.reduce.tasks で割り、50% を掛けて、各タスクのテーブルへの書き込みスループットの下限を取得できます。さらに良いことに、現時点で作業中の削減タスクの数を照会して、各削減タスクの正確な書き込みスループットの上限を取得したいのですが、その数を取得する方法がわかりません。タスク、保留中のタスク、および作業中のタスクの合計数を示すジョブトラッカーに表示されます。
柔軟ではない 1 つの代替手段は、hadoop ストリーミング パラメーター「-numReduceTasks」を使用してタスク数を設定することです。