1

一定時間ごとにファイルを S3 バケットにエクスポートするアプリがあります。このバケットからストリーミングし、30 秒ごとに新しいファイルの行を配信する Spark Streaming アプリを開発する必要があります。

資格情報について理解するのに役立つこの投稿を読みましたが、それでも私のニーズには対応していません。

Q1. これを行う方法について、誰かがコードやヒントを提供できますか? Twitter の例を見たことがありますが、それを自分のシナリオに適用する方法がわかりませんでした。

Q2. Spark Streaming は、次のファイルを取得する前に最後にストリーミングされたファイルをどのように認識しますか? これは、ファイルの LastModified ヘッダーまたはある種のタイムスタンプに基づいていますか?

Q3. クラスターがダウンした場合、停止した場所からストリーミングを開始するにはどうすればよいですか?

前もって感謝します!!

4

0 に答える 0