16

大量の Web ページのインデックスを作成する必要があります。優れた Web クローラー ユーティリティはありますか? 私は .NET が通信できるものを望んでいますが、それはショーストッパーではありません。

私が本当に必要としているのは、サイトの URL を指定できるもので、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。

4

6 に答える 6

12

HTTrack -- http://www.httrack.com/ -- は、非常に優れた Web サイトのコピー機です。かなりうまくいきます。長い間使用しています。

Nutch は Web クローラーです (クローラーは探しているプログラムの種類です) -- http://lucene.apache.org/nutch/ -- 一流の検索ユーティリティ lucene を使用します。

于 2008-10-07T00:45:59.357 に答える
4

Crawler4jは、Web をクロールするためのシンプルなインターフェイスを提供するオープン ソースの Java クローラーです。マルチスレッドの Web クローラーを 5 分でセットアップできます。

ページにアクセスするかどうか (URL) を指定する独自のフィルターを設定し、ロジックに従って、クロールされた各ページに対していくつかの操作を定義できます。

Crawler4j を選択するいくつかの理由。

  1. マルチスレッド構造、
  2. クロールする深さを設定できます。
  3. Java ベースのオープンソースであり、
  4. 冗長リンク (url) の制御、
  5. クロールするページ数を設定できます。
  6. クロールするページサイズを設定できます。
  7. 十分なドキュメント
于 2012-11-18T01:07:34.907 に答える
2

Searcharoo.NETには、コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。Searcharoo.Indexer.EXE コードを回避して、コンテンツがダウンロードされたときにトラップし、そこから独自のカスタム コードを追加できるはずです...

これは非常に基本的なものです (すべてのソース コードが含まれており、CodeProject の 6 つの記事で説明されています。その最新の記事はSearcharoo v6にあります)。 . 単一の Web サイト (Web 全体ではありません) を対象としています。

Nutch/Lucene はほぼ間違いなく、より堅牢な商用グレードのソリューションですが、それらのコードは見ていません。何を達成したいのかわかりませんが、Microsoft Search Server Expressも見たことがありますか?

免責事項: 私は Searcharoo の作成者です。ここでオプションとして提供するだけです。

于 2008-10-07T01:13:31.063 に答える
1

Mozenda の Web スクレイピング ソフトウェアを使用しています。簡単にすべてのリンクをクロールして、必要なすべての情報を取得できます。このソフトウェアは、コストパフォーマンスに優れたソフトウェアです。

于 2010-05-25T01:05:41.700 に答える
1

スパイダーはかなり良いです。PHPですが、参考になれば幸いです。

于 2008-10-07T00:42:40.767 に答える
0

まだ使っていませんが、これは面白そうです。著者はそれをゼロから書き、その方法を投稿しました。そのためのコードもダウンロードできます。

于 2008-10-07T00:52:32.837 に答える