Javaで開発された場合、並列システムまたは分散システムはWebサイトクローラーおよびWebインデクサーに適していますか?利用可能なフレームワークは何ですか?
2 に答える
6
Javaでこれまでに見つけた中で最高のクローラー/インデクサーコンボの1つはNutchです。これは、現在Apacheプロジェクト(Wikiを参照)であり、したがってオープンソースです。
特徴:
- 並列および/または分散でのフェッチ、解析、および索引付け
- プラグイン:プレーンテキスト、HTML、XML、ZIP、OpenDocument(OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、JavaScript、RSS、RTF、MP3(ID3タグ)
- オントロジー
- クラスタリング
- MapReduce
- 分散ファイルシステム(Hadoop経由)
- リンクグラフデータベース
- NTLM認証(Windows / Exchange / etc)
于 2010-08-01T10:13:38.640 に答える
1
ナッチは無敵です。私がプロジェクトでうまく使用したもう1つのより単純なライブラリは、https://crawler.dev.java.net/です。https://crawler.dev.java.net/samples.htmlに例があります。
于 2010-08-01T10:37:40.507 に答える