クローラーには、新しいステップ (プリパーサー、パーサーなど) の実装など、内部プロセスの変更を可能にする拡張可能なアーキテクチャが必要です。
Heritrix プロジェクト ( http://crawler.archive.org/ ) を見つけました。
しかし、そのような素晴らしいプロジェクトが他にありますか?
クローラーには、新しいステップ (プリパーサー、パーサーなど) の実装など、内部プロセスの変更を可能にする拡張可能なアーキテクチャが必要です。
Heritrix プロジェクト ( http://crawler.archive.org/ ) を見つけました。
しかし、そのような素晴らしいプロジェクトが他にありますか?
無料のクローラーに関しては、 Nutchが最適です。これはLuceneの概念から (エンタープライズ規模で) 構築されており、大規模なデータ クエリにMapReduce (Google に類似) を使用するHadoopバックエンドによってサポートされています。素晴らしい製品です!私は現在、manning の新しい (まだリリースされていない) Hadoop in Actionで Hadoop に関するすべてを読んでいます。このルートをたどる場合は、テクニカルレビューチームに参加して、このタイトルの早期コピーを入手することをお勧めします!
これらはすべて Java ベースです。あなたが .net の人なら (私のように!!)、Lucene.NET、Nutch.NET、およびHadoop.NETにもっと興味があるかもしれません。これらはすべて、クラスごとのクラスであり、C# への API ポートごとの API です。
また、Scrapy http://scrapy.org/を試してみることもできます
クローラーを指定して実行するのは非常に簡単です。
Abot は、優れた拡張可能な Web クローラーです。アーキテクチャのすべての部分はプラグ可能で、その動作を完全に制御できます。C# で書かれたオープン ソースで、商用および個人使用は無料です。
私は最近、Nutchと呼ばれるものを発見しました。
プラットフォームに縛られていなければ、私は過去にNutchで非常に良い経験をしました。
これは Java で書かれており、Lucene インデクサーと連携しています。