10

さまざまなレベルの集計の分析を必要とするアプリケーションがあり、それが OLAP ワークロードです。データベースもかなり頻繁に更新したいと思います。

たとえば、私の更新は次のようになります (スキーマは次のようになります: 時間、宛先、ソース IP、ブラウザ -> 訪問)

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) -->  105

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110

...

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110

それから、先月、Firefox ブラウザから www.stackoverflow.com にアクセスした合計はいくらですか。

Vertica システムが比較的安価な方法でこれを実行できることは理解しています (パフォーマンスとスケーラビリティに関しては可能ですが、おそらくコストに関してはそうではありません)。ここで 2 つの質問があります。

1) この問題を解決するために構築できるオープンソース製品はありますか? 特に、モンドリアンシステムはどの程度うまく機能しますか? (スケーラビリティとパフォーマンス) 2) このための HBase または Hypertable ベース ソリューションはありますか (明らかに、裸の HBase/Hypertable ではこれができません)。-- しかし、HBase/Hypertable に基づくプロジェクトがあれば、おそらくスケーラビリティは問題にならないでしょう (IMO)?

ありがとう!

4

4 に答える 4

2

greenplum データベースの無料版 (単一ノード版) をダウンロードできます。私は自分で試したことはありませんが、強力な獣だと思います/推測します. ここを読む: http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

もう 1 つのオプションは MongoDB です。MongoDB は高速で無料で、JavaScript で MapReduce 関数を記述して分析を行うことができます。

ここでの私の評判は、mongodb へのハイパーリンクを追加するには低すぎるため、Google で検索する必要があります。投稿ごとにハイパーリンクを 1 つだけ追加できます。

于 2010-01-16T01:16:50.593 に答える
2

zohmg プロジェクトは、Hadoop と HBase を使用してこの問題を解決することを目指しています。

于 2010-01-17T04:49:56.023 に答える
2

Facebook はまた、Hadoop の上に Hive を構築しました。始めるのは非常に簡単です - 合理的なクエリ API も。

http://mirror.facebook.net/facebook/hive/

于 2010-01-19T07:21:50.910 に答える
0

あなたのデータモデルはそれよりも複雑ですか? そうでない場合は、カスタム コードを記述したほうがよい場合があります。その後、実際にデータに合わせて調整できます。実際の製品は多くの柔軟性を提供する必要があり、それを実現するには多くの複雑さが必要であり、結果として速度が低下します。

あなたの質問は 1 つの側面で明確ではありません: スケーラブルについて話すとき、それはどういう意味ですか? 多数のサイトからデータを収集していますが、クエリ ユーザーの数は限られていますか? それともユーザー数も多いですか? その状況は、大幅に異なるモデルにつながります。

于 2010-01-26T22:06:25.243 に答える