count
でアクティブに働いている人の数を知りたい"Coca-Cola"
場合は、次のクエリを使用します。
people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...
これは、バッチ モードで正常に動作します。
ただし、時間の経過とともに変化するcompany
フィールドを想定するperson
か、人々が完全に削除されると仮定するDataset
と、構造化ストリーミングでこれを機能させるにはどうすればよいので、count
正しいままですか?
AFAIK 構造化ストリーミングは、データ ソースが追加専用であると想定しています。それは、削除と更新を別々のデータ ソースとして追跡し、それらを自分でマージする必要があるということですか?