0

ストリーミングでは、以下のようにこれらのパラメータを設定しました spark.worker.cleanup.enabled true spark.worker.cleanup.interval 60 spark.worker.cleanup.appDataTtl 90

これにより、work/app-2016*/(1,2,3,4,5,6,...) フォルダー内の既に強制終了された Spark バッチ/ストリーミング ジョブ データがクリアされます。ただし、Spark Streaming ジョブを実行すると、現在の app-* の履歴データは削除されません。Kafka-Spark コネクタ jar を使用しているため、マイクロ バッチごとに、この jar を app jar と stderr と共にコピーし、各フォルダー (work/app-2016*/(1,2,3,4,5,6, ...) . Kafka-Spark コネクタは uber jar であり、約 15 MB であり、1 日で 100 GB になるため、これ自体が大量のメモリを消費しています。

現在実行中の Spark Streaming ジョブからデータを削除する方法はありますか、それともスクリプトを作成する必要がありますか?

4

0 に答える 0