Web クローラーを開発しましたが、クロールしている Web サイトの robots.txt ファイルを尊重したいと考えています。
これが robots.txt ファイル構造であることがわかります。
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
行ごとに読み取り、スペース文字を区切り文字として使用して爆発を使用してデータを見つけることができます。
データ全体をロードできる他の方法はありますか?
この種のファイルには、XPath のような言語がありますか?
または、ファイル全体を解釈する必要がありますか?
リンク、見つかった場合の重複など、どんな助けも大歓迎です...