私はspark-shellでspark sqlジョブを実行していました。ジョブは寄木細工のファイルからテーブルを作成します。
ドライバー ノードの Web UI には、タスクの多くのメトリックがあります。
期間 / スケジューラの遅延 / タスクのデシリアライズ時間 / GC 時間 / 結果のシリアライズ時間 / 結果の取得時間 / 書き込み時間
ディスクから寄木細工のブロックを読み取るのに実際にどれくらいの時間が費やされたかを知りたいです (逆シリアル化、タプルの再構築、シャッフル書き込みなどの時間は含まれません)。
どのように計算すればよいですか?は
読み取り時間=期間 - スケジューラの遅延 - タスクの逆シリアル化時間 - GC 時間 - 結果のシリアル化時間 - 結果の取得時間 - 書き込み時間 ?
ありがとう、