問題タブ [hivecontext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
1034 参照

apache-spark - PySparkは失敗時にSparkContextを再起動します

Hive データベースの各テーブルの集計を計算する必要があります。私のコードは次のようなものです:

ある時点で、巨大なテーブルの読み取りによって例外が発生し、SparkContext が閉じます。この時点から、sqlContext へのすべての呼び出しが失敗します。

今のところ、ジョブにリソースを追加することはできませんが、SparkContext を再起動して、for ループの残りのテーブルで集計を計算したいと考えています。

SparkContext が例外ハンドラーで閉じられていることを確認し、最終的に次のように再作成することは良い (そして実行可能な) アイデアですか?

私はSparkバージョン1.6.1で作業しており、--master yarn --deploy-mode clientでジョブを実行しています