robots.txt を尊重するクローラーを作成したいと考えています。残念ながら、ヘッドレス ブラウザは robots.txt をサポートしていないようです。私は PhantomJS の人々と話し合い、答えを得ました。PhantomJS はブラウザーであり、クローラーではありません。スクリプトから使用する場合、スクリプトは robots.txt を尊重する責任があります。
これは正しいです?メインの URL だけでなく、http リクエストごとに robots.txt を尊重する必要があると考えていました。
質問: robots.txt でメインの URL を確認するだけで十分ですか?