私がこれを正しく理解していれば、スパーク ストリーミングは、RDD バッチを一連の変換を介して変換し、変換後に出力操作を行うためのものです。これはバッチごとに実行されるため、出力操作もバッチごとに実行されます。しかし、毎回出力を行うのは非常にコストがかかるため、バッチを処理して結果を蓄積し、特定のイベント (たとえば、一定期間後) でのみ、蓄積された結果を書き出してプログラムを終了したいと考えています。
を使用してデータを蓄積できることupdateStateByKey
はわかっていますが、Spark に出力操作 (たとえば ) を使用するように指示する方法がわかりませんsaveAsTextFiles
。
これはまったく可能ですか?
これはフリンクで可能ですか?