3

私はWebクローラーを開発していますが、データの保存に適していますか?CassandraまたはHadoopHiveまたはMySQL?そしてなぜ?私はMySQL DBに過去6か月の1TBのデータを持っているので、それらにインデックスを付ける必要があり、できるだけ早く検索に出力する必要があります。クローラーが高速に動作しているため、10 Peta Byesのように、より多くのデータを保存します。読み取り/書き込み操作を高速にする必要があります。PHPアプリに統合する必要があります。

4

3 に答える 3

3

要件の詳細にもよりますが、あなたの場合はHBaseが最適なオプションだと思います。
HBaseをWebクローラーデータベースとして使用することは十分に文書化されており、BigTableホワイトペーパーで説明されているのはHBaseの使用法です。

于 2010-08-17T22:32:45.693 に答える
0

コンテンツに基づいてドキュメントを検索するための何かを探しています。転置インデックスに基づいている必要があります。最も自然にフィットするのはLuceneだと思います。

テラバイトのドキュメントをクエリするためのHadoop-Luceneスタックに関するこの記事も参照してください。

于 2010-08-20T03:48:07.220 に答える
0

要件によって異なります。ストリーミングデータをリアルタイムで高速に分析する場合は、HBASEを使用してください。Cassandraは、HBASEに比べて読み取りが遅いため、高速書き込みシナリオに最適です。

ハイブも良い選択肢です。ハイブのパフォーマンスを向上させるには、Impalaを使用します。

于 2013-10-01T05:07:50.820 に答える