database - 財務分析のためのデータストレージ

Question

証券取引価格に関する大量の財務データを分析するシステムを構築しています。これにおける大きな課題は、データが数十テラバイトになることを前提として、データに使用するストレージ方法を決定することです。平均の取得、標準偏差の計算、価格、時間、ボリュームなどの複数の列でフィルタリングされた合計など、データに関する多くのクエリがあります。結合ステートメントは必須ではありませんが、持っていると便利です。

現在、評価のためにinfobrightコミュニティエディション、monetdb、greenplumコミュニティエディションを見ています。これまでのところすばらしいように見えますが、より高度な機能の場合、これらのエディションの一部では、それぞれの一部が必要です（複数のサーバー、挿入/更新ステートメントなどを使用）。

この状況でどのようなソリューションを使用しますか。また、他のソリューションよりもメリットがありますか。費用対効果が高いことは大きなプラスです。データウェアハウスソリューションにお金を払わなければならない場合はそうしますが、それを避け、可能であればオープンソース/コミュニティエディションのルートを採用したいと思います。

score 1 · Accepted Answer

Infobrightは、大量のデータに対してチューニング、予測、インデックスを使用せずに、高速なクエリパフォーマンスを提供します。データの読み込みでは、1時間あたり80 TBのデータ、1秒あたり12,000を超える挿入を読み込むことができる場合があります。

それはどのように機能しますか？

列の向きと行の向き
データパックと圧縮平均20：1
ナレッジグリッド-クエリに対するサブセカンドレスポンス
mysqlアーキテクチャの上に構築されたGranularEngine

エンタープライズライセンスを検討することを検討することをお勧めしますが、コミュニティエディションを評価し、それに対してパフォーマンスとデータ読み込みのニーズをテストすることはできます。

免責事項：著者はInfobrightと提携しています。

score 1 · Accepted Answer

あなたが言及するデータベースはどれもあなたが必要とすることをするだろうと思います。数十TB相当のデータを処理している場合、MPPクラスターで実行するエンタープライズライセンスを取得することは、処理時間を短縮するための資金の有効活用になるでしょう。また、このDWが組織にとって重要な処理を行う場合、ライセンスを取得することは、ベンダーからのサポートを受けることを意味します。これは、多くの企業にとって重要です。YMMV。

より重要な質問は、データの取り込み率がどのようになるかということです。金融システムの場合、方程式の大部分は、通常の処理を継続しながら、システムに新しいデータをロードし続ける能力である必要があると思います。

私はあなたの候補リストの中からGreenplumに精通しているだけですが、短時間で大量のデータをロードするのに適していることを知っています。GPには、組み込みのSQL関数、MADLib、Rなど、DB内でネイティブに実行できる多くの組み込みの統計および分析関数もあります。

database - 財務分析のためのデータストレージ

2 に答える 2

Related

Reference