1

Hadoop ストリーミングに Amazon AWS、Dynamo DB、および EMR クラスターを使用しています。私の削減タスクは Dynamo テーブルに書き込みます。たとえば、書き込みスループットの 50% など、テーブルへの書き込みの上限を確立して順守する必要があります。

テーブルの書き込みスループット設定を照会し、mapred.reduce.tasks で割り、50% を掛けて、各タスクのテーブルへの書き込みスループットの下限を取得できます。さらに良いことに、現時点で作業中の削減タスクの数を照会して、各削減タスクの正確な書き込みスループットの上限を取得したいのですが、その数を取得する方法がわかりません。タスク、保留中のタスク、および作業中のタスクの合計数を示すジョブトラッカーに表示されます。

柔軟ではない 1 つの代替手段は、hadoop ストリーミング パラメーター「-numReduceTasks」を使用してタスク数を設定することです。

4

1 に答える 1

0

ここでJobTracker説明されているように、これには API を使用する必要があります。

特に、ここで説明されているオブジェクトgetClusterStatusを返す呼び出しに関心があります。それ以降は、クラスター内で現在実行中の reduce タスクの数を取得するために呼び出すだけです。ClusterStatusgetReduceTasks

getClusterMetrics同様の情報を提供するメソッドを使用して取得することもできます。

于 2013-05-25T06:20:26.260 に答える