問題タブ [snappydata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - プロセスを停止せずに Spark リアルタイム ストリーミングでデータフレームを更新する
私のアプリケーションでは、Kafka キューからアカウントのストリームを取得します (kafka で Spark ストリーミングを使用)
そして、S3 からこれらのアカウントに関連する属性をフェッチする必要があるため、S3 データは少なくとも 1 日は更新されないため、S3 の結果のデータフレームをキャッシュする予定です。将来的にはすぐに 1 時間または 10 分に変更される可能性があります。プロセスを停止せずにキャッシュされたデータフレームを定期的に更新する方法です。
**更新: SNS と AWS ラムダを使用して、S3 で更新があるたびにイベントを kafka に発行することを計画しています。私のストリーミング アプリケーションはイベントをサブスクライブし、このイベントに基づいてキャッシュされたデータフレームを更新します (基本的に unpersist()cache とS3 からリロード) これは良いアプローチですか?