linux - Hadoop ユーザー + sys 時間または Hadoop ジョブカウンターで費やされた合計 CPU 時間のベンチマークタスクには、どちらを使用する必要がありますか?

Question

回答のこの1 つのステートメントでは、「同じデータに対して同じジョブを実行していますが、1 つの 20 ノードクラスター、次に 200 ノードクラスターで実行されています。全体として、両方のクラスターで同じ量の CPU 時間が使用されます」と書かれています。誰かがこれを説明できますか?

コマンドを使用timeしてリアルタイムを測定しました。実際のリアルタイムよりも多くの CPU 時間 (hadoop カウンター) を取得したり、その逆を行ったりすることがありますuser+sys。

Hadoop での合計 CPU 時間の測定値をまだ取得していません。time コマンドに関しては、この回答が書かれており、ベンチマークには user+sys を使用することをお勧めします。

そのtotal cpu time taken by process = user+sysため、hadoop ジョブカウンターの合計 CPU 時間と同じになるはずです。しかし、私は異なる結果を得ています。
Hadoop user+sys または合計 CPU 時間 (hadoop カウンター) でベンチマークの種類のタスクを実行している場合、どの時間を考慮する必要がありますか?

注: Apache Hiveベンチマークでは、リアルタイムが考慮されていますが、他のプロセスによっても影響を受ける可能性があります。だから私はリアルタイムを考えることができません。

score 1 · Accepted Answer

same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters

つまり、ジョブがN20 ノードクラスターで 1M時間、200 ノードクラスターで数時間かかる場合、次の20 * Nようになります。M * 200

リアルタイムを選択する必要がありますが、上記のように、この値はそれに応じて変化する可能性があるため、少なくとも 3 回試して、最終結果として平均を計算する必要があります。

linux - Hadoop ユーザー + sys 時間または Hadoop ジョブ カウンターで費やされた合計 CPU 時間のベンチマーク タスクには、どちらを使用する必要がありますか?

1 に答える 1

Related

Reference

linux - Hadoop ユーザー + sys 時間または Hadoop ジョブカウンターで費やされた合計 CPU 時間のベンチマークタスクには、どちらを使用する必要がありますか?