3

現在、非常に大きなデータセット(数十億)からデータを効果的に保存および取得する方法の問題に直面しています。私たちはmysqlを使用しており、システム、OS、raid、クエリ、インデックスなどを最適化しており、現在、先に進むことを検討しています。

データの問題を解決するためにどのテクノロジーを追求するかについて、十分な情報に基づいて決定する必要があります。私はHDFSでmap/reduceを調査してきましたが、HBaseについても良いことを聞いています。他にも選択肢があると思います。利用可能なテクノロジーとそれぞれのトレードオフの良い比較はありますか?

それぞれに共有するリンクがあれば、それもありがたいです。

4

1 に答える 1

4

それは広い問題です。私は道順を教えようとします、そしてそれぞれについてあなたはさらなる情報を見るか尋ねることができます。1つ目は...従来のDBです。データが十分に価値があり、RAIDと優れたサーバーを使用できる場合、Oracleは優れている可能性があり、高価なソリューションを打ち負かすことができます。TPC-Hは、意思決定支援クエリの業界標準ベンチマークです:http ://www.tpc.org/tpch/results/tpch_perf_results.aspこれは、最高のパフォーマンス結果へのリンクです。ご覧のとおり、RDBMSはテラバイトのデータに拡張できます。
2つ目は、HDFS + Map / Reduce+Hiveの形式のHadoopです。Hiveは、MapReduce上にあるデータウェアハウジングソリューションです。データを元の形式で保存し、線形にスケーリングする機能など、いくつかの追加の利点を得ることができます。あなたが見るものの1つ-非常に複雑なクエリのインデックス作成と実行。
3つ目はMPP(大規模な並列処理データベース)です。それらは数十から数百のノードにスケーラブルであり、豊富なSQLサポートを備えています。例としては、Netezza、Greenplum、Asterdata、Verticaがあります。それらの中からの選択は簡単な作業ではありませんが、より正確な要件でそれを行うこともできます。

于 2011-01-20T06:33:43.027 に答える