robots.txt - 任意の Web サイトの robots.txt ファイルを尊重するように PHP Web クローラーを作成する

Question

Web クローラーを開発しましたが、クロールしている Web サイトの robots.txt ファイルを尊重したいと考えています。

これが robots.txt ファイル構造であることがわかります。

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

行ごとに読み取り、スペース文字を区切り文字として使用して爆発を使用してデータを見つけることができます。

データ全体をロードできる他の方法はありますか?

この種のファイルには、XPath のような言語がありますか?

または、ファイル全体を解釈する必要がありますか?

リンク、見つかった場合の重複など、どんな助けも大歓迎です...

score 1 · Accepted Answer

構造は非常に単純なので、自分でファイルを解析するのがおそらく最善の方法です。私はそれを一行ずつ読んで、あなたが言ったように、User-agent、Disallowなどのキーワードを探します.

1 に答える 1