c# - Web クローラー C# .Net

Question

これが実際に Web クローラーと呼ばれているかどうかはわかりませんが、これが私がやろうとしていることです。

C# .Net を使用して Visual Studio 2010 でプログラムを作成しています。

最初の部分が同じすべての URL を検索したい。

ホームページwww.mywebsite.comがあり、いくつかのサブページがあるとします: /tab1、/tab2、/tab3など。

で始まるすべての URL のリストを取得する方法はありwww.mywebsite.comますか?

したがって、を指定するwww.mywebsite.comと、プログラムはwww.mywebsite.com/tab1、www.mywebsite.com/tab2、www.mywebsite.com/tab3などを返します。

ps。サブページの合計数がわかりません。

-- 12:04pmに編集 --

説明不足でごめんなさい。

上記のタスクを実行する C# でクローラーを作成する方法を知りたいです。

私が知っているのはメインの url だけwww.mywebsite.comで、目標はそのすべてのサブページを見つけることです。

-- 12:16pmに編集 --

また、メインページにはリンクがなく、html は基本的に空白です。

サブページが存在することは知っていますが、正確な URL を提供する以外にリンクする方法がありません。

score 1 · Accepted Answer

クロールしているのが内部リンクだけの場合、Web サイト自体がリンクしているサブページのみが見つかります。何らかの方法で他の Web サイトに公開されている特定のリンクがあり、それらが内部でリンクされていない場合、問題の Web サイトのみをクロールしていると、それらを見逃す可能性があります。

いくつかの戦略があります。

チート:のすべてのサブページを探している場合は、Google で検索して Google の結果をスクレイピングしますturtlerescueleague.com。site:turtlerescueleague.comこれにより、通常、Web サイト自体にリンクされていないページがあり、他の Web サイトからリンクされているという問題が解決されます。
クローラーを作成します。各 HTML ページからリンクを抽出し、外部リンクを破棄し、リンクに既にアクセスしたかどうかを確認し、アクセスするページのキューに新しいリンクをキューに入れて、そのページにアクセスする必要があります。すべて丁寧に行うことを忘れないでください。つまり、robots.txt に従ってください :)。

2 に答える 2