問題タブ [hivecontext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - PySparkは失敗時にSparkContextを再起動します
Hive データベースの各テーブルの集計を計算する必要があります。私のコードは次のようなものです:
ある時点で、巨大なテーブルの読み取りによって例外が発生し、SparkContext が閉じます。この時点から、sqlContext へのすべての呼び出しが失敗します。
今のところ、ジョブにリソースを追加することはできませんが、SparkContext を再起動して、for ループの残りのテーブルで集計を計算したいと考えています。
SparkContext が例外ハンドラーで閉じられていることを確認し、最終的に次のように再作成することは良い (そして実行可能な) アイデアですか?
私はSparkバージョン1.6.1で作業しており、--master yarn --deploy-mode clientでジョブを実行しています