0

URL のリストがあり、webtrec 形式でインデックスを作成するためにそれらをダウンロードしたいと考えています。MapReduce (Apache Hadoop)という便利なフレームワークを見つけましたが、やりたいことが Java で実装されているかどうか知りたいです。あるいは、それに近い例かもしれません。

ありがとうございました!

4

1 に答える 1

1

MapReduce パターンは、複数のステップで並列化可能な CPU バウンド計算のパターンです。Web ページのダウンロードとクロールは、I/O バウンドの操作です。したがって、両方の操作を区別する必要があります。

したがって、パフォーマンスが本当に重要な場合は、Web サイトをダウンロードするために、最初にキューや非同期 I/O などを使用する必要があります。次に、MapReduce を使用して実際のインデックスを作成します。

Hadoop は 1 つの可能性ですが、大規模を対象としていない場合は、Fork/Join や akka などのフレームワークも適用できる可能性があります。

于 2012-05-09T12:35:46.877 に答える