ビッグデータ = 毎年 10% ずつ増加する 1 TB。モデルは単純です.25列の1つのテーブル。他のテーブルとの結合はありません..
25 列のサブセットで単純なクエリ フィルタリングを実行しようとしています。
フィルター処理された列にインデックスを持つ従来の SQL ストアが必要だと思います。Hadoop は過剰であり、これはリアルタイム サービス用であるため意味がありません。モンゴ?ペンタホみたいなバイエンジン?
推奨事項はありますか?
ビッグデータ = 毎年 10% ずつ増加する 1 TB。モデルは単純です.25列の1つのテーブル。他のテーブルとの結合はありません..
25 列のサブセットで単純なクエリ フィルタリングを実行しようとしています。
フィルター処理された列にインデックスを持つ従来の SQL ストアが必要だと思います。Hadoop は過剰であり、これはリアルタイム サービス用であるため意味がありません。モンゴ?ペンタホみたいなバイエンジン?
推奨事項はありますか?
あなたが説明したように本当に単純なモデルに大きな変更がない限り、従来のソリューションは確かにうまく聞こえるようです。
NoSQLは、BI/レポーティングにとって最良の選択ではないように思われます。
良いハードウェアを入手してください。パフォーマンステストに時間を費やし、必要なすべてのインデックスを作成します。適切な新しいデータアップロード戦略を実装します。ニーズとパフォーマンステストに応じて、PostgreSQLにテーブルレベルのパーティショニングを実装します。
PS ORACLE / DB2から切り替える機会があれば、間違いなくPostgreSQLを使用します。
ここで Infobright を調査することをお勧めします。これは列ベースで圧縮されているため、完全な TB を保存することはなく、オープンソース バージョンがあるため、多くの営業担当者から呼び出されることなく試すことができます (ただし、前回はOSS バージョンには本当に便利なものがいくつか欠けているように見えたので、ライセンスが必要になるかもしれません)。前回試したときは、MySQL のように外の世界に見えたので、統合するのは難しくありませんでした。私が最後にチェックアウトしたとき、それは単一サーバー指向であり、単一サーバーで最大 50 TB で動作すると主張していました。あなたがその方向に進むことを決めた場合、Infobright は Pentaho の後ろに座ることができると思います。
Infobright のおかげで、管理者なしにかなり近づいていました。手動のインデックス作成やインデックスのメンテナンスはありません。
列ストアが役立つように思えます。挿入の処理方法と、更新を行う必要があるかどうかによって異なります。しかし、商用化する場合は infobright と同様に、ベクターごとにチェックアウトすると、より速く、同様の価格になります。
無料/オープン ソースが必要な場合は、Luciddb をチェックしてください。多くのドキュメントはありませんが、その機能は非常に優れています!
信じられないほどの速度が必要な場合は、vectorwise をチェックしてください。infobright とほぼ同じ価格だと思いますが、はるかに高速です。