2

これが実際に Web クローラーと呼ばれているかどうかはわかりませんが、これが私がやろうとしていることです。

C# .Net を使用して Visual Studio 2010 でプログラムを作成しています。

最初の部分が同じすべての URL を検索したい。

ホームページwww.mywebsite.comがあり、いくつかのサブページがあるとします: /tab1/tab2/tab3など。

で始まるすべての URL のリストを取得する方法はありwww.mywebsite.comますか?

したがって、 を指定するwww.mywebsite.comと、プログラムはwww.mywebsite.com/tab1www.mywebsite.com/tab2www.mywebsite.com/tab3などを返します。

ps。サブページの合計数がわかりません。

-- 12:04pmに編集 --

説明不足でごめんなさい。

上記のタスクを実行する C# でクローラーを作成する方法を知りたいです。

私が知っているのはメインの url だけwww.mywebsite.comで、目標はそのすべてのサブページを見つけることです。

-- 12:16pmに編集 --

また、メイン ページにはリンクがなく、html は基本的に空白です。

サブページが存在することは知っていますが、正確な URL を提供する以外にリンクする方法がありません。

4

2 に答える 2

1

クロールしているのが内部リンクだけの場合、Web サイト自体がリンクしているサブページのみが見つかります。何らかの方法で他の Web サイトに公開されている特定のリンクがあり、それらが内部でリンクされていない場合、問題の Web サイトのみをクロールしていると、それらを見逃す可能性があります。

いくつかの戦略があります。

  • チート:のすべてのサブページを探している場合は、Google で検索して Google の結果をスクレイピングしますturtlerescueleague.comsite:turtlerescueleague.comこれにより、通常、Web サイト自体にリンクされていないページがあり、他の Web サイトからリンクされているという問題が解決されます。
  • クローラーを作成します。各 HTML ページからリンクを抽出し、外部リンクを破棄し、リンクに既にアクセスしたかどうかを確認し、アクセスするページのキューに新しいリンクをキューに入れて、そのページにアクセスする必要があります。すべて丁寧に行うことを忘れないでください。つまり、robots.txt に従ってください :)。
于 2013-06-27T16:18:21.157 に答える