ネットワークテストの実行からのテキストレポートとログファイルがたくさんあります。これらのレポートとログをデータストアに保存し、そこで解析して、解析されたデータに基づいてレポートを実行したいと思います。また、このシステムが、受け入れるレポートとログの種類と、使用できるデータとクエリ/レポートの量の両方で拡張可能であることを望んでいます。
同僚がHadoop
このニーズを満たす可能性があると提案し、私の組織の別のチームはCassandra
、同様のプロジェクトに使用していると述べています(ただし、はるかに多くのデータがあり、そのほとんどはマシンで生成されています)。私はこれまで読んできましたがHadoop and Cassandra
、そのようなものを使用するのがやり過ぎであるかどうか、およびログ/レポートタイプごとにカスタムパーサーを備えたリレーショナルデータベースがより適切であるかどうかは本当にわかりません。
の理解からすると、とにかく各タイプの入力データを解析する関数をHadoop
作成する必要があります。また、を使用したMapReduce
場合も同様のことを行う必要があると思いますCassandra
。についても少し読んだHive
ことがありますが、それは役に立つかもしれませんが、あまり深く調べていません。
私の状況でHadoopまたはCassandra(または他の何か)を使用することの利点(もしあれば)は何ですか?
どんな種類のアドバイスもいただければ幸いです。