回答のこの1 つのステートメントでは、「同じデータに対して同じジョブを実行していますが、1 つの 20 ノード クラスター、次に 200 ノード クラスターで実行されています。全体として、両方のクラスターで同じ量の CPU 時間が使用されます」と書かれています。誰かがこれを説明できますか?
コマンドを使用time
してリアルタイムを測定しました。実際のリアルタイムよりも多くの CPU 時間 (hadoop カウンター) を取得したり、その逆を行ったりすることがありますuser+sys
。
Hadoop での合計 CPU 時間の測定値をまだ取得していません。time コマンドに関しては、この回答が書かれており、ベンチマークには user+sys を使用することをお勧めします。
- その
total cpu time taken by process = user+sys
ため、hadoop ジョブ カウンターの合計 CPU 時間と同じになるはずです。しかし、私は異なる結果を得ています。 - Hadoop user+sys または合計 CPU 時間 (hadoop カウンター) でベンチマークの種類のタスクを実行している場合、どの時間を考慮する必要がありますか?
注: Apache Hiveベンチマークでは、リアルタイムが考慮されていますが、他のプロセスによっても影響を受ける可能性があります。だから私はリアルタイムを考えることができません。