いくつかの Web サイトのサイトマップをスクレイピングする Web スクレイパーを構築したいと考えています。この形式に何度か遭遇しましたhttps://developer.mozilla.org/sitemap.xml。これが標準なのか、あるのか気になります。
サイトマップをスクレイピングするための最良の方法は何ですか? 正規表現ですか、それともライブラリですか?
いくつかの Web サイトのサイトマップをスクレイピングする Web スクレイパーを構築したいと考えています。この形式に何度か遭遇しましたhttps://developer.mozilla.org/sitemap.xml。これが標準なのか、あるのか気になります。
サイトマップをスクレイピングするための最良の方法は何ですか? 正規表現ですか、それともライブラリですか?
これにはDOMAPIを使用する必要があると思います。そしてサイトマップフォーマットはそこで説明されていますhttp://www.sitemaps.org/protocol.html
Javaを使用している場合は、Javaサイトマップパーサーが役立つ場合があります。PHPを使用したサイトマップの解析については、ここで説明しました。