Hadoop を使用して、n 分ごとに生成される入力ファイルを処理したいと考えています。この問題にどのようにアプローチすればよいですか?たとえば、米国の都市の温度測定値を 10 分ごとに受信しており、1 週間および 1 か月の 1 日あたりの平均気温を計算したいと考えています。
PS: これまでのところ、測定値を取得するために Apache Flume を検討してきました。複数のサーバーからデータを取得し、定期的に HDFS にデータを書き込みます。それらを読み取って処理できる場所から。
しかし、同じファイルを何度も操作しないようにするにはどうすればよいでしょうか?