約 100 TB の Web データに対して分類とクラスタリングを実行する必要があり、Hadoop と Mahout と AWS を使用することを計画していました。データを保存するためにどのデータベースを使用することをお勧めしますか? MySQL は動作しますか、それとも MongoDB のようなものは大幅に高速になりますか? どちらのデータベースにも他に利点はありますか? ありがとう。
1262 次
1 に答える
2
最も単純で直接的な答えは、ファイルを HDFS または S3 (AWS について言及したため) に直接配置し、Hadoop/Mahout を直接それらに向けることです。他のデータベースにはさまざまな目的がありますが、Hadoop/HDFS はまさにこの種の大量のバッチ スタイルの分析用に設計されています。よりデータベース スタイルのアクセス レイヤーが必要な場合は、それほど問題なく Hive を追加できます。基盤となるストレージ レイヤーは引き続き HDFS または S3 ですが、Hive を使用すると、そこに格納されているデータへの SQL のようなアクセスが可能になります (それが必要な場合)。
あなたが提起した他の 2 つのオプションに対処するために: MongoDB は低レイテンシーの読み取りと書き込みに適していますが、おそらくそれは必要ありません。また、MySQL のすべての高度な機能について把握しているわけではありませんが、特にすべてのデータにアクセスする大規模なクエリを開始する場合は、100 TB を処理するのはかなり難しいと思います。従来のトランザクション アクセス用に設計されています。
于 2013-09-11T23:28:25.207 に答える