apache-spark - Spark ストリーミング - スタンドアロンモード (各バッチの各アプリの作業フォルダー内のデータを削除しないクリーンアップ)

翻译自：https://stackoverflow.com/questions/36150358 2016-03-22T09:17:32.127

174 次

ストリーミングでは、以下のようにこれらのパラメータを設定しました spark.worker.cleanup.enabled true spark.worker.cleanup.interval 60 spark.worker.cleanup.appDataTtl 90

これにより、work/app-2016*/(1,2,3,4,5,6,...) フォルダー内の既に強制終了された Spark バッチ/ストリーミングジョブデータがクリアされます。ただし、Spark Streaming ジョブを実行すると、現在の app-* の履歴データは削除されません。Kafka-Spark コネクタ jar を使用しているため、マイクロバッチごとに、この jar を app jar と stderr と共にコピーし、各フォルダー (work/app-2016*/(1,2,3,4,5,6, ...) . Kafka-Spark コネクタは uber jar であり、約 15 MB であり、1 日で 100 GB になるため、これ自体が大量のメモリを消費しています。

現在実行中の Spark Streaming ジョブからデータを削除する方法はありますか、それともスクリプトを作成する必要がありますか?

apache-spark - Spark ストリーミング - スタンドアロン モード (各バッチの各アプリの作業フォルダー内のデータを削除しないクリーンアップ)

0 に答える 0

Related

Reference

apache-spark - Spark ストリーミング - スタンドアロンモード (各バッチの各アプリの作業フォルダー内のデータを削除しないクリーンアップ)