amazon-ec2 - Spark を使用して、常に更新される S3 バケットのコンテンツをストリーミングする

翻译自：https://stackoverflow.com/questions/25110817 2014-08-04T01:53:03.520

1212 次

一定時間ごとにファイルを S3 バケットにエクスポートするアプリがあります。このバケットからストリーミングし、30 秒ごとに新しいファイルの行を配信する Spark Streaming アプリを開発する必要があります。

資格情報について理解するのに役立つこの投稿を読みましたが、それでも私のニーズには対応していません。

Q1. これを行う方法について、誰かがコードやヒントを提供できますか? Twitter の例を見たことがありますが、それを自分のシナリオに適用する方法がわかりませんでした。

Q2. Spark Streaming は、次のファイルを取得する前に最後にストリーミングされたファイルをどのように認識しますか? これは、ファイルの LastModified ヘッダーまたはある種のタイムスタンプに基づいていますか?

Q3. クラスターがダウンした場合、停止した場所からストリーミングを開始するにはどうすればよいですか?

前もって感謝します！！

0 に答える 0