私はちょっと奇妙な質問をしていますが、私はスパイダーを作っています.
mysite.com/drupal
mysite.com/wordpress
mysite.com/abc
この種の情報を見つける方法はありますか???
私はちょっと奇妙な質問をしていますが、私はスパイダーを作っています.
mysite.com/drupal
mysite.com/wordpress
mysite.com/abc
この種の情報を見つける方法はありますか???
Web サイトは通常、URL のセット全体を宣伝するわけではありません。あなたはいくつかのことを試すことができます:
メインページを読み、ページ上のリンクに従ってください。それぞれがリンクなどを含む別のページにつながります。
一般的なフォルダー名を推測します。
サイトに robots.txt ファイルがある場合は、これを確認します。あなたは善良な市民であるべきであり、あなたが禁じられているページを取得してはなりません。
これが示すように、サイトのサイトマップを取得してみてください: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156184
従来のスパイダーを実装する場合は、コンテンツ内の URL のみをトラバースします。すべてのディレクトリ レベルで辞書またはすべての文字列のチェックを試すことができますが、それはうまくいきません。
したがって、短い答えは「いいえ」です。