apache-spark - Spark Structured Streaming で削除 (または更新) された行を処理するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/41055443 2016-12-09T07:45:24.907

523 次

countでアクティブに働いている人の数を知りたい"Coca-Cola"場合は、次のクエリを使用します。

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

これは、バッチモードで正常に動作します。

ただし、時間の経過とともに変化するcompanyフィールドを想定するpersonか、人々が完全に削除されると仮定するDatasetと、構造化ストリーミングでこれを機能させるにはどうすればよいので、count正しいままですか?

AFAIK 構造化ストリーミングは、データソースが追加専用であると想定しています。それは、削除と更新を別々のデータソースとして追跡し、それらを自分でマージする必要があるということですか?

1 に答える 1