一定時間ごとにファイルを S3 バケットにエクスポートするアプリがあります。このバケットからストリーミングし、30 秒ごとに新しいファイルの行を配信する Spark Streaming アプリを開発する必要があります。
資格情報について理解するのに役立つこの投稿を読みましたが、それでも私のニーズには対応していません。
Q1. これを行う方法について、誰かがコードやヒントを提供できますか? Twitter の例を見たことがありますが、それを自分のシナリオに適用する方法がわかりませんでした。
Q2. Spark Streaming は、次のファイルを取得する前に最後にストリーミングされたファイルをどのように認識しますか? これは、ファイルの LastModified ヘッダーまたはある種のタイムスタンプに基づいていますか?
Q3. クラスターがダウンした場合、停止した場所からストリーミングを開始するにはどうすればよいですか?
前もって感謝します!!