0

Web クローラーを開発しましたが、クロールしている Web サイトの robots.txt ファイルを尊重したいと考えています。

これが robots.txt ファイル構造であることがわかります。

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

行ごとに読み取り、スペース文字を区切り文字として使用して爆発を使用してデータを見つけることができます。

データ全体をロードできる他の方法はありますか?

この種のファイルには、XPath のような言語がありますか?

または、ファイル全体を解釈する必要がありますか?

リンク、見つかった場合の重複など、どんな助けも大歓迎です...

4

1 に答える 1

1

構造は非常に単純なので、自分でファイルを解析するのがおそらく最善の方法です。私はそれを一行ずつ読んで、あなたが言ったように、User-agent、Disallowなどのキーワードを探します.

于 2012-08-14T13:49:14.003 に答える