私たちの会社には、独自の報告の必要性があります。X分ごとにファイルに入ってくる大量のデータを収集しています。ファイルのサイズは 1 ~ 5 MB で、最大 100 万行を含みます。データは、更新されず、かなり構造化されたログ データに似ています。ただし、データ モデルの変更をサポートする柔軟性が必要です。定型 (静的) レポートと、インタラクティブなダッシュボードの一部としていくつかのレポートを配信する必要があります。
定型レポートの場合、データは 1 日に 1 回だけ更新する必要があります。そのため、これには Hive を使用します。1 日の終わりまでに、ファイル サイズは数 Gbs になり、その時点で Hadoop にプッシュされるため、Hadoop で小さなファイルの問題が発生することはありません。レポートは静的であるため、Hive がデータを返すのに数秒/分かかっても、それほど問題にはなりません。
しかし、これらのレポートは数秒以内にロードする必要があるため、Hive はインタラクティブなダッシュボードのニーズを満たすことができません。これらのレポートは主に時系列レポートで、時系列データは最大 1 年間保存されます。データ ウェアハウジング/BI の目的で使用できる他のデータベースを知りたいですか? ビッグデータでうまく機能し、高速な書き込みと読み取りが可能で、最小限のコーディングでレポートを作成できる適切なクエリ言語を備えた、安定したオープン ソース データベースが必要です。定型レポートに Hadoop+Hive を使用する予定なので、このデータベースが Hadoop と直接連携できれば理想的です。
私は Hbase を調べましたが、X 分ごとに送信される小さなファイルでうまく機能するかどうかはわかりません。Hbase は正しい選択ですか? DBに関するその他の提案も大歓迎です。
私たちのレポートは非常に基本的なものであり、ソリューションを非常にシンプルに保ちたいと考えています. PS MySql は使用したくありません。