1

Web クローラーが取得した Web ページを保存したい。私はランダムアクセスを持っていません。そのため、保存されたデータを読みたいときはいつでも、最初から最後まで読みます。

HBase のようなソリューションを試してみましたが、HBase の最も優れた点の 1 つは、まったく必要のないレコードへのランダム アクセスです。HBase は、1 年半のテストの後、安定しているとは証明されていません。

Webページの数が約10億であるため、HDFSの上にスタックまたはキューが必要です。ActiveMQ のキュー動作も必要ありません。障害が発生した場合にすべてを読み取ることができるように、Web ページを保存できるようにしたいだけです。

ファイルのローテーション、ファイルの一貫性などを処理したくないため、ファイルを使用したくありません...

保存されているすべてのデータを solr クラスターに送信し、HDFS による冗長性や可用性などの優れた機能を備えたい場合に、データに対して MapReduce ジョブを実行できるように、HDFS が必要であることは言及する価値があります。

ランダム アクセスの機能がなく、レコードの透過的なビューがなく、JMS レコードを格納するだけの HDFS 上のサービスはありますか?

4

0 に答える 0