私のアプリケーションでは、Kafka キューからアカウントのストリームを取得します (kafka で Spark ストリーミングを使用)
そして、S3 からこれらのアカウントに関連する属性をフェッチする必要があるため、S3 データは少なくとも 1 日は更新されないため、S3 の結果のデータフレームをキャッシュする予定です。将来的にはすぐに 1 時間または 10 分に変更される可能性があります。プロセスを停止せずにキャッシュされたデータフレームを定期的に更新する方法です。
**更新: SNS と AWS ラムダを使用して、S3 で更新があるたびにイベントを kafka に発行することを計画しています。私のストリーミング アプリケーションはイベントをサブスクライブし、このイベントに基づいてキャッシュされたデータフレームを更新します (基本的に unpersist()cache とS3 からリロード) これは良いアプローチですか?