c# - 推奨事項-C＃/。NETリンクスクレイピング/Webクローラーフレームワーク

Question

ニーズに合わせて変更できるC＃のWebクローラーまたはリンクスクレーパーの実装を探しています。特定のリンクを監視するために、Webサイトのリストをスパイダーするために、オンデマンドで実行できるものが必要です。スパイダーは、サイトのコピーを保存したり、画像をダウンロードしたりする必要はありません。サブストリングの小さなリストに一致する特定のサイトにリンクしているページを報告するだけです。

arachnode.net（および他の無数の例）のようなクローラーの実装を見てきましたが、それらはすべて、コンテンツの保存を中心に展開する大量のコードを含んでいます。それをする必要はありません。リンクされているすべてのページを解析し、特定の条件を満たすリンクを含むページを報告する必要があります（単純な部分文字列の一致になります）。

誰かが私が始めるのを助けるかもしれないフレームワークまたは例を推薦できますか？これを行うにはいくつかの方法があるようですが（特に.NET4とHTMLAgility Packを使用）、定期的に実行する必要があるため、高性能のスレッド処理または並列処理の実装が重要です。

[編集]

よくわからなかったかもしれませんが、これはASP.Net Webサイトの一部としてではなく、デスクトップで実行する必要があります。会社所有のサイトは多くのドメイン、サーバー、地理的な場所にまたがっているため、サーバー側のソリューションにはなり得ません。

score 1 · Accepted Answer

ここで SEO 名前空間が役立つでしょうか? あなたが探しているのはWebCrawlerクラスですか？

http://msdn.microsoft.com/en-us/library/microsoft.web.management.seo.crawler.webcrawler(v=VS.90).aspx

c# - 推奨事項-C＃/。NETリンクスクレイピング/Webクローラーフレームワーク

1 に答える 1

Related

Reference