3

私のシナリオで使用する NoSQL データベースまたはテクノロジ/ツールを教えていただけないでしょうか。SQL サーバー分析サービスに基づく OLAP キューブをオープン ソース テクノロジに置き換えることを検討しています。これは、データが大きすぎて管理できず、クエリが返されるのに時間がかかりすぎるためです。本のすべてのルールに従って、データを分割し、集計やパーティションなどを使用してキューブの設計を最適化しましたが、個別のカウント クエリの一部には 1 ~ 2 分かかります :( ファクト テーブルのデータ サイズはおよそ250GB. スター スキーマ方式で接続された 10 ~ 12 のディメンションがあります。

そのため、Hadoop/HBase/NoSQL データベースなどのオープン ソース テクノロジを試して、最小限のセットアップとオンボーディングで OLAP シナリオを解決できるかどうかを確認することにしました。

新しいテクノロジーに対する主な要件は次のとおりです。

  1. 個別のカウント クエリ (< 2 秒) に対して、非常に高速または瞬時に結果を取得する必要があります。

  2. メジャーとディメンションの概念をサポートします (OLAP のように)。

  3. 多くの開発者が SQL の専門家であるため、SQL のようなクエリ言語をサポートします。
  4. Excel/Tableau を接続してデータを視覚化する機能。

今日のオープン ソースの世界には非常に多くの新しいテクノロジとツールが存在するため、正しい方向性を示していただけると幸いです。

4

2 に答える 2

4

注: 私は Apache Kylin チームの出身です。

以下の回答を参照してください。

新しいテクノロジーに対する私たちの主な要件は、個別のカウント クエリ (< 2 秒) に対して非常に高速または瞬時に結果を取得する必要があることです。

-- Luke: 90% タイルのクエリ レイテンシが 5 秒未満というのが、現在の統計です。個別カウントが 2 未満の場合、データはいくつになりますか? おおよその結果は大丈夫ですか?

メジャーとディメンションの概念をサポートします (OLAP のように)。

-- Luke: Kylin は、ディメンション (階層もサポート) とメジャー (Sum/Count/Min/Max/Avg/DistinctCount) 定義を持つ純粋な OLAP エンジンです。

多くの開発者が SQL の専門家であるため、SQL のようなクエリ言語をサポートします。 --Luke: Kylin サポート ANSI SQL インターフェイス (ほとんどの SELECT 関数)

Excel/Tableau を接続してデータを視覚化する機能。

-- Luke: Kylin には ODBC ドライバーがあり、Tableau と非常にうまく連携します。Excel/PowerBI は間もなく登場します。

ご不明な点がございましたら、お気軽にお問い合わせください。

ありがとう。

于 2015-03-25T01:47:52.013 に答える