問題タブ [spark-ui]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark UI -> SQL タブにすべての (古い) ステージが表示されない
多くのステージ(〜150)を持つスパーク(SQL)ジョブを実行しています。一時的なビューとデータフレームを使用して SQL をチェーンする内部フレームワーク内で、主に spark-sql を使用して記述されています。最初の中間テーブルの書き込みについては、Spark UI -> [SQL] タブで詳細ビューを確認できます。ただし、後のテーブル書き込みでは、[SQL] タブには以下の形式の UI が表示されるだけです。
この理由は何ですか? SQL タブで詳細なグラフィカル ビューを取得するために任意のパラメーターを使用できますか?
私のスパークバージョン:2.3
編集:2020 年 1 月 17 日 JIRA https://issues.apache.org/jira/browse/SPARK-30064を見つけましたが、使用していない jdbc データソースについて言及しているため、関連しているかどうかはわかりません。
apache-spark - Spark SQL: Spark UI で 1 つのジョブではなく 3 つのジョブが表示されるのはなぜですか?
action
私の理解では、Sparkにはそれぞれに 1 つのジョブがあります。
しかし、1 つのアクションに対して複数のジョブがトリガーされることがよくあります。データセットで単純な集計を行って各カテゴリから最大値を取得することでこれをテストしようとしていました(ここでは「件名」フィールド)
Spark UI を調べていると、操作のために 3 つの「ジョブ」が実行されていることがわかりますが、groupBy
1 つだけを期待していました。
1つではなく3つある理由を理解するのを手伝ってくれる人はいますか?
Spark UI を調べていると、操作のために 3 つの「ジョブ」が実行されていることがわかりますが、groupBy
1 つだけを期待していました。