ネットワークテストの実行からのテキストレポートとログファイルがたくさんあります。これらのレポートとログをデータストアに保存し、そこで解析して、解析されたデータに基づいてレポートを実行したいと思います。また、このシステムが、受け入れるレポートとログの種類と、使用できるデータとクエリ/レポートの量の両方で拡張可能であることを望んでいます。
同僚がHadoopこのニーズを満たす可能性があると提案し、私の組織の別のチームはCassandra、同様のプロジェクトに使用していると述べています(ただし、はるかに多くのデータがあり、そのほとんどはマシンで生成されています)。私はこれまで読んできましたがHadoop and Cassandra、そのようなものを使用するのがやり過ぎであるかどうか、およびログ/レポートタイプごとにカスタムパーサーを備えたリレーショナルデータベースがより適切であるかどうかは本当にわかりません。
の理解からすると、とにかく各タイプの入力データを解析する関数をHadoop作成する必要があります。また、を使用したMapReduce場合も同様のことを行う必要があると思いますCassandra。についても少し読んだHiveことがありますが、それは役に立つかもしれませんが、あまり深く調べていません。
私の状況でHadoopまたはCassandra(または他の何か)を使用することの利点(もしあれば)は何ですか?
どんな種類のアドバイスもいただければ幸いです。