apache-spark - プロセスを停止せずに Spark リアルタイムストリーミングでデータフレームを更新する

翻译自：https://stackoverflow.com/questions/45281710 2017-07-24T13:16:51.500

2075 次

私のアプリケーションでは、Kafka キューからアカウントのストリームを取得します (kafka で Spark ストリーミングを使用)

そして、S3 からこれらのアカウントに関連する属性をフェッチする必要があるため、S3 データは少なくとも 1 日は更新されないため、S3 の結果のデータフレームをキャッシュする予定です。将来的にはすぐに 1 時間または 10 分に変更される可能性があります。プロセスを停止せずにキャッシュされたデータフレームを定期的に更新する方法です。

**更新: SNS と AWS ラムダを使用して、S3 で更新があるたびにイベントを kafka に発行することを計画しています。私のストリーミングアプリケーションはイベントをサブスクライブし、このイベントに基づいてキャッシュされたデータフレームを更新します (基本的に unpersist()cache とS3 からリロード) これは良いアプローチですか?

apache-spark - プロセスを停止せずに Spark リアルタイム ストリーミングでデータフレームを更新する

2 に答える 2

Related

Reference

apache-spark - プロセスを停止せずに Spark リアルタイムストリーミングでデータフレームを更新する