4

私は私たちのウェブサイト (1 日に数百万ページビューを取得する適切なサイズのサイト) 用にいくつかのレポート機能を構築しており、無料またはオープン ソースの優れたデータ ウェアハウス システムが存在するかどうか疑問に思っています。

具体的には、データを保存するものだけを探しています。関心のある情報が表示されるように、カスタム フロント エンド/UI を構築する予定です。ただし、このためにカスタマイズされたデータベースを構築する必要はありません。ここでは SQL データベースが機能しないことは確かですが、正確に何を使用すればよいかわかりません。役立つ記事へのポインタも高く評価されます。

編集:言及する必要があります-私が簡単に見たDBの1つはMongoDBでした。うまくいくように見えますが、彼らの「ユースケース」では、データウェアハウスが「あまり適していない」と具体的に言及されています: http://www.mongodb.org/display/DOCS/Use+Cases . また、特にデータ ウェアハウジングを対象としているようには見えません。

4

7 に答える 7

5

http://www.hypertable.org/ は、正規化して大量のログデータを保存するためのものである可能性があります(上記の説明を参照します)。つまり、訪問者ログ。

Hypertableは、GoogleのbigTableプロジェクトに基づいています。 ベンチマークについては、 http://code.google.com/p/hypertable/wiki/PerformanceTestAOLQueryLogを参照してください。

SQLベースのデータベースのリレーショナル機能は失われますが、パフォーマンスは大幅に向上します。ハイパーテーブルを簡単に使用して、1時間あたり数百万行を格納できます(ハードドライブのスペースに耐えられます)。

それが役立つことを願っています

于 2009-10-27T23:07:18.873 に答える
3

ペンタホ・モンドリアン

  • オープンソース
  • 標準のリレーショナル データベースを使用
  • MDX (ピボット テーブルを考えてください)
  • ETL (ケトル経由)

私はこれを使います。

于 2009-10-31T11:07:28.233 に答える
3

私は問題を正しく理解していないかもしれません -- しかし、Kimball の「The Data Warehouse Toolkit」を (再) 訪問する時間があれば、基本的な DW に必要なのは単純な普通の SQL データベースだけであることがわかります。ストレージ エンジンに MyISAM を使用すると、MySQL で適切な DW を構築できます。問題は、必要な情報の粒度、つまり何をどのくらい保持したいかだけです。レポートがほとんど定期的であり、レポート ストレージまたはキャッシュを実装する場合は、事前に計算された集計を保存する必要はありません (キューブは必要ありません)。つまり、キャッシュされたレポートを備えた Kimball スターは、多くの場合、まともなパフォーマンスを提供できます。「Pentaho BI Suite」(オープン ソース) のコミュニティ エディションを参照して、ETL をすばやく開始することもできます。分析とレポート - カスタム開発に入る前に、少し実験してパフォーマンスを評価してください。これはあなたが期待していたものではないかもしれませんが、検討する価値があるかもしれません.

于 2009-10-26T19:02:04.023 に答える
2

それはすべて、データとそれにアクセスする方法によって異なります。MonetDBは、データベース テクノロジの最も革新的なチームによる列指向のデータベース エンジンです。彼らは VLDB の 10 年間の最優秀論文賞を受賞しました。DB はオープン ソースであり、オンラインでそれらを称賛するレビューがたくさんあります。

おそらく、TPCを見て、どのテスト問題データセットがあなたのケースに最もよく一致するかを確認し、そこから作業する必要があります。

また、同時実行の必要性も考慮してください。これは、あらゆる種類のアプローチに大きなオーバーヘッドを追加し、実際には必要ない場合もあります。たとえば、一部の要約データまたは索引データを事前にダイジェストし、そのデータのみを高い並行性のために保護することができます。データクエリのプロファイリングは次のステップです。

SQL については、私も好きではありませんが、フロントエンド言語という理由だけでエンジンを除外するのは賢明ではないと思います。

于 2009-11-01T06:45:47.467 に答える
2

ハイパーテーブルに関するマイクの回答に加えて、Apache の Hadoop プロジェクトを参照してください。

http://hadoop.apache.org/

BigTable コンセプトのもう 1 つの実装である HBase など、アプリケーションに役立つツールが多数用意されています。レポートについては、 mapreduce の実装も役立つと思います。

于 2009-10-28T23:16:07.117 に答える
0

同様の問題があり、 http: //www.jitterbit.com/をデータアクセス層として使用するプレーンなMyISAMを使用することを考えています。Jitterbit(または同様の別の無料ツール)は、この種の変換には非常に適しているようです。

これが少し役立つことを願っています。

于 2009-10-30T23:34:13.560 に答える
0

多くの人がMysqlまたはPostgresを使用しています:)

于 2012-07-04T13:38:32.843 に答える