3

私は c# と vb.net を使用した優れた開発経験がありますが、いくつかのガイダンスが必要です。検索エンジンのようなスパイダーとクローラーを開発したいのですが、方法がわかりません:

  1. サイバーで新しいウェブサイトを検出する方法は? Google が起動時にサイトを検出してクロールするように?
  2. Web サイトに追加された新しいページを検出する方法は? Web サイトのすべてのページを検出して解析できますが、処理に時間がかかりますか? 新しく追加されたページを検出する方法は?
  3. 変更されたページを検出する方法は?
4

3 に答える 3

0

Google で site:"www.spiderthissite.com" を実行し、/locations/ id を記録する何かをコーディングすることから始まる c# id はあまり知りません。フォルダの場所。

ただし、あなたの質問はかなり広いIDです。最初に爆発させてから、ある時点で行き詰まったときにここに来てください。

于 2013-03-30T12:58:51.570 に答える
0

新しいページを見つける主な方法は 2 つあります。

  1. サイト マップ (詳細については、この用語を Google で調べてください)。これは、ページがいつ更新されたかを示すこともできます。
  2. クロールしている別のページに新しいサイト/ページへのリンクがあることに気付く。

既に知っているページの場合は、"If-Modified-Since" HTTP ヘッダーを使用できます。これは、指定した日付以降にページが変更されていない場合に 304 応答を返すようサーバーに指示します。これにより、ページが変更されていない場合は、ページを再度ダウンロードして解析する手間が省けますが、これを見つけるためにリクエストを行う必要があることは明らかです。そのため、サイト マップが好まれます。サイト全体に関する情報を一度に取得できます。もちろん、サイトはそれらを提供する必要はありません。

于 2013-03-30T12:33:04.380 に答える