2

回答のこの1 つのステートメントでは「同じデータに対して同じジョブを実行していますが、1 つの 20 ノード クラスター、次に 200 ノード クラスターで実行されています。全体として、両方のクラスターで同じ量の CPU 時間が使用されます」と書かれています。誰かがこれを説明できますか?

コマンドを使用timeしてリアルタイムを測定しました。実際のリアルタイムよりも多くの CPU 時間 (hadoop カウンター) を取得したり、その逆を行ったりすることがありますuser+sys

Hadoop での合計 CPU 時間の測定値をまだ取得していません。time コマンドに関しては、この回答が書かれており、ベンチマークには user+sys を使用することをお勧めします。

  1. そのtotal cpu time taken by process = user+sysため、hadoop ジョブ カウンターの合計 CPU 時間と同じになるはずです。しかし、私は異なる結果を得ています。
  2. Hadoop user+sys または合計 CPU 時間 (hadoop カウンター) でベンチマークの種類のタスクを実行している場合、どの時間を考慮する必要がありますか?

注: Apache Hiveベンチマークでは、リアルタイムが考慮されていますが、他のプロセスによっても影響を受ける可能性があります。だから私はリアルタイムを考えることができません。

4

1 に答える 1

1

same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters

つまり、ジョブがN20 ノード クラスターで 1M時間、200 ノード クラスターで数時間かかる場合、次の20 * Nようになります。M * 200

リアルタイムを選択する必要がありますが、上記のように、この値はそれに応じて変化する可能性があるため、少なくとも 3 回試して、最終結果として平均を計算する必要があります。

于 2016-03-06T12:06:37.023 に答える