java - mapreduce にインデクサーの Java 実装はありますか?

Question

URL のリストがあり、webtrec 形式でインデックスを作成するためにそれらをダウンロードしたいと考えています。MapReduce (Apache Hadoop)という便利なフレームワークを見つけましたが、やりたいことが Java で実装されているかどうか知りたいです。あるいは、それに近い例かもしれません。

ありがとうございました！

score 1 · Accepted Answer

MapReduce パターンは、複数のステップで並列化可能な CPU バウンド計算のパターンです。Web ページのダウンロードとクロールは、I/O バウンドの操作です。したがって、両方の操作を区別する必要があります。

したがって、パフォーマンスが本当に重要な場合は、Web サイトをダウンロードするために、最初にキューや非同期 I/O などを使用する必要があります。次に、MapReduce を使用して実際のインデックスを作成します。

Hadoop は 1 つの可能性ですが、大規模を対象としていない場合は、Fork/Join や akka などのフレームワークも適用できる可能性があります。

java - mapreduce にインデクサーの Java 実装はありますか?

1 に答える 1

Related

Reference