大量の Web ページのインデックスを作成する必要があります。優れた Web クローラー ユーティリティはありますか? 私は .NET が通信できるものを望んでいますが、それはショーストッパーではありません。
私が本当に必要としているのは、サイトの URL を指定できるもので、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。
大量の Web ページのインデックスを作成する必要があります。優れた Web クローラー ユーティリティはありますか? 私は .NET が通信できるものを望んでいますが、それはショーストッパーではありません。
私が本当に必要としているのは、サイトの URL を指定できるもので、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。
HTTrack -- http://www.httrack.com/ -- は、非常に優れた Web サイトのコピー機です。かなりうまくいきます。長い間使用しています。
Nutch は Web クローラーです (クローラーは探しているプログラムの種類です) -- http://lucene.apache.org/nutch/ -- 一流の検索ユーティリティ lucene を使用します。
Crawler4jは、Web をクロールするためのシンプルなインターフェイスを提供するオープン ソースの Java クローラーです。マルチスレッドの Web クローラーを 5 分でセットアップできます。
ページにアクセスするかどうか (URL) を指定する独自のフィルターを設定し、ロジックに従って、クロールされた各ページに対していくつかの操作を定義できます。
Crawler4j を選択するいくつかの理由。
Searcharoo.NETには、コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。Searcharoo.Indexer.EXE コードを回避して、コンテンツがダウンロードされたときにトラップし、そこから独自のカスタム コードを追加できるはずです...
これは非常に基本的なものです (すべてのソース コードが含まれており、CodeProject の 6 つの記事で説明されています。その最新の記事はSearcharoo v6にあります)。 . 単一の Web サイト (Web 全体ではありません) を対象としています。
Nutch/Lucene はほぼ間違いなく、より堅牢な商用グレードのソリューションですが、それらのコードは見ていません。何を達成したいのかわかりませんが、Microsoft Search Server Expressも見たことがありますか?
免責事項: 私は Searcharoo の作成者です。ここでオプションとして提供するだけです。
Mozenda の Web スクレイピング ソフトウェアを使用しています。簡単にすべてのリンクをクロールして、必要なすべての情報を取得できます。このソフトウェアは、コストパフォーマンスに優れたソフトウェアです。
スパイダーはかなり良いです。PHPですが、参考になれば幸いです。
まだ使っていませんが、これは面白そうです。著者はそれをゼロから書き、その方法を投稿しました。そのためのコードもダウンロードできます。