web-crawler - 優れた Web クローラーツールとは

Question

大量の Web ページのインデックスを作成する必要があります。優れた Web クローラーユーティリティはありますか? 私は .NET が通信できるものを望んでいますが、それはショーストッパーではありません。

私が本当に必要としているのは、サイトの URL を指定できるもので、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。

score 12 · Accepted Answer

HTTrack -- http://www.httrack.com/ -- は、非常に優れた Web サイトのコピー機です。かなりうまくいきます。長い間使用しています。

Nutch は Web クローラーです (クローラーは探しているプログラムの種類です) -- http://lucene.apache.org/nutch/ -- 一流の検索ユーティリティ lucene を使用します。

score 4 · Accepted Answer

Crawler4jは、Web をクロールするためのシンプルなインターフェイスを提供するオープンソースの Java クローラーです。マルチスレッドの Web クローラーを 5 分でセットアップできます。

ページにアクセスするかどうか (URL) を指定する独自のフィルターを設定し、ロジックに従って、クロールされた各ページに対していくつかの操作を定義できます。

Crawler4j を選択するいくつかの理由。

マルチスレッド構造、
クロールする深さを設定できます。
Java ベースのオープンソースであり、
冗長リンク (url) の制御、
クロールするページ数を設定できます。
クロールするページサイズを設定できます。
十分なドキュメント

score 2 · Accepted Answer

Searcharoo.NETには、コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。Searcharoo.Indexer.EXE コードを回避して、コンテンツがダウンロードされたときにトラップし、そこから独自のカスタムコードを追加できるはずです...

これは非常に基本的なものです (すべてのソースコードが含まれており、CodeProject の 6 つの記事で説明されています。その最新の記事はSearcharoo v6にあります)。 . 単一の Web サイト (Web 全体ではありません) を対象としています。

Nutch/Lucene はほぼ間違いなく、より堅牢な商用グレードのソリューションですが、それらのコードは見ていません。何を達成したいのかわかりませんが、Microsoft Search Server Expressも見たことがありますか?

免責事項: 私は Searcharoo の作成者です。ここでオプションとして提供するだけです。

score 1 · Accepted Answer

Mozenda の Web スクレイピングソフトウェアを使用しています。簡単にすべてのリンクをクロールして、必要なすべての情報を取得できます。このソフトウェアは、コストパフォーマンスに優れたソフトウェアです。

score 1 · Accepted Answer

1

スパイダーはかなり良いです。PHPですが、参考になれば幸いです。

于 2008-10-07T00:42:40.767 に答える

score 0 · Accepted Answer

まだ使っていませんが、これは面白そうです。著者はそれをゼロから書き、その方法を投稿しました。そのためのコードもダウンロードできます。

web-crawler - 優れた Web クローラー ツールとは

6 に答える 6

Related

Reference

web-crawler - 優れた Web クローラーツールとは