2

Javaで開発された場合、並列システムまたは分散システムはWebサイトクローラーおよびWebインデクサーに適していますか?利用可能なフレームワークは何ですか?

4

2 に答える 2

6

Javaでこれまでに見つけた中で最高のクローラー/インデクサーコンボの1つはNutchです。これは、現在Apacheプロジェクト(Wikiを参照)であり、したがってオープンソースです。

特徴:

  1. 並列および/または分散でのフェッチ、解析、および索引付け
  2. プラグイン:プレーンテキスト、HTML、XML、ZIP、OpenDocument(OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、JavaScript、RSS、RTF、MP3(ID3タグ)
  3. オントロジー
  4. クラスタリング
  5. MapReduce
  6. 分散ファイルシステム(Hadoop経由)
  7. リンクグラフデータベース
  8. NTLM認証(Windows / Exchange / etc)
于 2010-08-01T10:13:38.640 に答える
1

ナッチは無敵です。私がプロジェクトでうまく使用したもう1つのより単純なライブラリは、https://crawler.dev.java.net/です。https://crawler.dev.java.net/samples.htmlに例があります。

于 2010-08-01T10:37:40.507 に答える