0

私はちょっと奇妙な質問をしていますが、私はスパイダーを作っています.

   mysite.com/drupal
   mysite.com/wordpress
   mysite.com/abc

この種の情報を見つける方法はありますか???

4

2 に答える 2

1

Web サイトは通常、URL のセット全体を宣伝するわけではありません。あなたはいくつかのことを試すことができます:

  1. メインページを読み、ページ上のリンクに従ってください。それぞれがリンクなどを含む別のページにつながります。

  2. 一般的なフォルダー名を推測します。

  3. サイトに robots.txt ファイルがある場合は、これを確認します。あなたは善良な市民であるべきであり、あなたが禁じられているページを取得してはなりません。

  4. これが示すように、サイトのサイトマップを取得してみてください: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156184

于 2012-06-28T15:33:54.290 に答える
0

従来のスパイダーを実装する場合は、コンテンツ内の URL のみをトラバースします。すべてのディレクトリ レベルで辞書またはすべての文字列のチェックを試すことができますが、それはうまくいきません。

したがって、短い答えは「いいえ」です。

于 2012-06-28T15:32:51.827 に答える