open-source - 拡張可能なオープンソースの優れた Web クローラーを知っている人はいますか?

Question

クローラーには、新しいステップ (プリパーサー、パーサーなど) の実装など、内部プロセスの変更を可能にする拡張可能なアーキテクチャが必要です。

Heritrix プロジェクト ( http://crawler.archive.org/ ) を見つけました。

しかし、そのような素晴らしいプロジェクトが他にありますか?

score 14 · Accepted Answer

無料のクローラーに関しては、 Nutchが最適です。これはLuceneの概念から (エンタープライズ規模で) 構築されており、大規模なデータクエリにMapReduce (Google に類似) を使用する Hadoopバックエンドによってサポートされています。素晴らしい製品です！私は現在、manning の新しい (まだリリースされていない) Hadoop in Actionで Hadoop に関するすべてを読んでいます。このルートをたどる場合は、テクニカルレビューチームに参加して、このタイトルの早期コピーを入手することをお勧めします!

これらはすべて Java ベースです。あなたが .net の人なら (私のように!!)、Lucene.NET、Nutch.NET、およびHadoop.NETにもっと興味があるかもしれません。これらはすべて、クラスごとのクラスであり、C# への API ポートごとの API です。

score 4 · Accepted Answer

また、Scrapy http://scrapy.org/を試してみることもできます

クローラーを指定して実行するのは非常に簡単です。

score 1 · Accepted Answer

Abot は、優れた拡張可能な Web クローラーです。アーキテクチャのすべての部分はプラグ可能で、その動作を完全に制御できます。C# で書かれたオープンソースで、商用および個人使用は無料です。

https://github.com/sjdirect/abot

score 0 · Accepted Answer

0

私は最近、Nutchと呼ばれるものを発見しました。

于 2009-06-24T17:32:03.947 に答える

score 0 · Accepted Answer

プラットフォームに縛られていなければ、私は過去にNutchで非常に良い経験をしました。

これは Java で書かれており、Lucene インデクサーと連携しています。

open-source - 拡張可能なオープン ソースの優れた Web クローラーを知っている人はいますか?

5 に答える 5

Related

Reference

open-source - 拡張可能なオープンソースの優れた Web クローラーを知っている人はいますか?