14

クローラーには、新しいステップ (プリパーサー、パーサーなど) の実装など、内部プロセスの変更を可能にする拡張可能なアーキテクチャが必要です。

Heritrix プロジェクト ( http://crawler.archive.org/ ) を見つけました。

しかし、そのような素晴らしいプロジェクトが他にありますか?

4

5 に答える 5

14

無料のクローラーに関しては、 Nutchが最適です。これはLuceneの概念から (エンタープライズ規模で) 構築されており、大規模なデータ クエリにMapReduce (Google に類似) を使用するHadoopバックエンドによってサポートされています。素晴らしい製品です!私は現在、manning の新しい (まだリリースされていない) Hadoop in Actionで Hadoop に関するすべてを読んでいます。このルートをたどる場合は、テクニカルレビューチームに参加して、このタイトルの早期コピーを入手することをお勧めします!

これらはすべて Java ベースです。あなたが .net の人なら (私のように!!)、Lucene.NETNutch.NET、およびHadoop.NETにもっと興味があるかもしれません。これらはすべて、クラスごとのクラスであり、C# への API ポートごとの API です。

于 2009-06-24T18:00:01.300 に答える
4

また、Scrapy http://scrapy.org/を試してみることもできます

クローラーを指定して実行するのは非常に簡単です。

于 2011-02-11T09:59:49.053 に答える
1

Abot は、優れた拡張可能な Web クローラーです。アーキテクチャのすべての部分はプラグ可能で、その動作を完全に制御できます。C# で書かれたオープン ソースで、商用および個人使用は無料です。

https://github.com/sjdirect/abot

于 2012-11-28T16:40:39.913 に答える
0

私は最近、Nutchと呼ばれるものを発見しました。

于 2009-06-24T17:32:03.947 に答える
0

プラットフォームに縛られていなければ、私は過去にNutchで非常に良い経験をしました。

これは Java で書かれており、Lucene インデクサーと連携しています。

于 2009-06-24T17:32:56.393 に答える