これは非常に単純な質問かもしれません。しかし、spark ジョブ (を使用して送信spark-submit
) の実行時間を測定する簡単な方法はありますか?
入力データのサイズに基づいて Spark ジョブをプロファイリングするのに役立ちます。
編集:http://[driver]:4040
ジョブを監視するために使用しますが、この Web UI はジョブが終了した瞬間にシャットダウンします。
これは非常に単純な質問かもしれません。しかし、spark ジョブ (を使用して送信spark-submit
) の実行時間を測定する簡単な方法はありますか?
入力データのサイズに基づいて Spark ジョブをプロファイリングするのに役立ちます。
編集:http://[driver]:4040
ジョブを監視するために使用しますが、この Web UI はジョブが終了した瞬間にシャットダウンします。
すべての SparkContext は、Web UI の独自のインスタンスを起動します。
http://[master]:4040
がデフォルトです (ポートは を使用して変更できますspark.ui.port
)。
次の情報を含むページ (タブ) を提供します。
ジョブ、ステージ、ストレージ (RDD サイズとメモリ使用量を含む) 環境、エグゼキュータ、SQL
この情報は、アプリケーションがデフォルトで実行されるまでのみ利用可能です。
ヒント: を有効にすると、アプリケーションの終了後に Web UI を使用できますspark.eventLog.enabled
。
SPARK 自体は、Spark ジョブの各ステージに関する詳細な情報を提供します。http://your-driver-node:4040の Spark の Web インターフェイスに移動します。履歴サーバーも使用できます。
実行時間だけが必要な場合は、「http://your-driver-node:8080」にアクセスすると、spark に送信されたジョブの実行時間が表示されます。