1

countでアクティブに働いている人の数を知りたい"Coca-Cola"場合は、次のクエリを使用します。

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

これは、バッチ モードで正常に動作します。

ただし、時間の経過とともに変化するcompanyフィールドを想定するpersonか、人々が完全に削除されると仮定するDatasetと、構造化ストリーミングでこれを機能させるにはどうすればよいので、count正しいままですか?

AFAIK 構造化ストリーミングは、データ ソースが追加専用であると想定しています。それは、削除と更新を別々のデータ ソースとして追跡し、それらを自分でマージする必要があるということですか?

4

1 に答える 1