web-crawler - ヘッドレスブラウザは robots.txt に注意する必要がありますか?

翻译自：https://stackoverflow.com/questions/19513416 2013-10-22T09:00:27.953

983 次

robots.txt を尊重するクローラーを作成したいと考えています。残念ながら、ヘッドレスブラウザは robots.txt をサポートしていないようです。私は PhantomJS の人々と話し合い、答えを得ました。PhantomJS はブラウザーであり、クローラーではありません。スクリプトから使用する場合、スクリプトは robots.txt を尊重する責任があります。

これは正しいです？メインの URL だけでなく、http リクエストごとに robots.txt を尊重する必要があると考えていました。

質問: robots.txt でメインの URL を確認するだけで十分ですか?

web-crawler - ヘッドレス ブラウザは robots.txt に注意する必要がありますか?

1 に答える 1

Related

Reference

web-crawler - ヘッドレスブラウザは robots.txt に注意する必要がありますか?