0

私たちの会社には、独自の報告の必要性があります。X分ごとにファイルに入ってくる大量のデータを収集しています。ファイルのサイズは 1 ~ 5 MB で、最大 100 万行を含みます。データは、更新されず、かなり構造化されたログ データに似ています。ただし、データ モデルの変更をサポートする柔軟性が必要です。定型 (静的) レポートと、インタラクティブなダッシュボードの一部としていくつかのレポートを配信する必要があります。

定型レポートの場合、データは 1 日に 1 回だけ更新する必要があります。そのため、これには Hive を使用します。1 日の終わりまでに、ファイル サイズは数 Gbs になり、その時点で Hadoop にプッシュされるため、Hadoop で小さなファイルの問題が発生することはありません。レポートは静的であるため、Hive がデータを返すのに数秒/分かかっても、それほど問題にはなりません。

しかし、これらのレポートは数秒以内にロードする必要があるため、Hive はインタラクティブなダッシュボードのニーズを満たすことができません。これらのレポートは主に時系列レポートで、時系列データは最大 1 年間保存されます。データ ウェアハウジング/BI の目的で使用できる他のデータベースを知りたいですか? ビッグデータでうまく機能し、高速な書き込みと読み取りが可能で、最小限のコーディングでレポートを作成できる適切なクエリ言語を備えた、安定したオープン ソース データベースが必要です。定型レポートに Hadoop+Hive を使用する予定なので、このデータベースが Hadoop と直接連携できれば理想的です。

私は Hbase を調べましたが、X 分ごとに送信される小さなファイルでうまく機能するかどうかはわかりません。Hbase は正しい選択ですか? DBに関するその他の提案も大歓迎です。

私たちのレポートは非​​常に基本的なものであり、ソリューションを非常にシンプルに保ちたいと考えています. PS MySql は使用したくありません。

4

2 に答える 2

0

理想的には、Netezza、GreenplumなどのMPPデータベースを探しています。これらはすべて商用です。言い換えれば、私はオープンソースソリューションについて知りません。最も近いのはおそらくinfobrightです-MySQL用の列指向エンジンがあります
良い分析的なオープンソースDBはありません。私は、降下並列クエリ機能+クラスタリングを備えたDBを意味します。
したがって、Hive / Hadoopが集約(キューブの構築)を大幅に強化し、RDBMSを使用してインタラクティブなクエリを提供する中間ソリューションを提案します。

于 2012-08-21T07:51:33.717 に答える
0

Greenplum データベースもお勧めします。これはオープン ソースではありませんが、数テラバイトのデータを問題なく処理できるシングル ノード エディションを備えています。非常に優れたデータ読み込みエンジンとクエリ実行エンジンがあり、どちらも並列です。HP Vertica にはコミュニティ版もあります

Greenplum と Vertica の両方に、hadoop/hbase/hive へのインターフェースがあります。

オープン ソースのみに関心がある場合は、MonetDB を試してください。オープンソースですが、私は経験がありません。

于 2012-08-28T10:33:58.657 に答える