Amazon s3 バケットに何千もの json ファイルがあり、それらのサイズはすべて 1 MB 未満です。それぞれを読み取り、ユーザー定義の基準に一致するファイルから結果を取得するレポート エンジンを開発する最善の方法は何でしょうか? Hadoop クラスターでデータをミラーリングすることを考えていましたが、これはやり過ぎのようで、Hadoop はそのような少量のデータにはあまり適していないという印象を受けました。
Amazon s3 バケットに何千もの json ファイルがあり、それらのサイズはすべて 1 MB 未満です。それぞれを読み取り、ユーザー定義の基準に一致するファイルから結果を取得するレポート エンジンを開発する最善の方法は何でしょうか? Hadoop クラスターでデータをミラーリングすることを考えていましたが、これはやり過ぎのようで、Hadoop はそのような少量のデータにはあまり適していないという印象を受けました。