URL のリストがあり、webtrec 形式でインデックスを作成するためにそれらをダウンロードしたいと考えています。MapReduce (Apache Hadoop)という便利なフレームワークを見つけましたが、やりたいことが Java で実装されているかどうか知りたいです。あるいは、それに近い例かもしれません。
ありがとうございました!
URL のリストがあり、webtrec 形式でインデックスを作成するためにそれらをダウンロードしたいと考えています。MapReduce (Apache Hadoop)という便利なフレームワークを見つけましたが、やりたいことが Java で実装されているかどうか知りたいです。あるいは、それに近い例かもしれません。
ありがとうございました!
MapReduce パターンは、複数のステップで並列化可能な CPU バウンド計算のパターンです。Web ページのダウンロードとクロールは、I/O バウンドの操作です。したがって、両方の操作を区別する必要があります。
したがって、パフォーマンスが本当に重要な場合は、Web サイトをダウンロードするために、最初にキューや非同期 I/O などを使用する必要があります。次に、MapReduce を使用して実際のインデックスを作成します。
Hadoop は 1 つの可能性ですが、大規模を対象としていない場合は、Fork/Join や akka などのフレームワークも適用できる可能性があります。