python - スクレイピー、Pythonでサイトマップスパイダーを使用して、異なるURL形式でサイトマップのURLを解析する

Question

私はスクレイピー、パイソンでサイトマップスパイダーを使用しています。サイトマップは、URL の前に '//' が付いた通常とは異なる形式のようです:

<url>
    <loc>//www.example.com/10/20-baby-names</loc>
</url>
<url>
    <loc>//www.example.com/elizabeth/christmas</loc>
 </url>

myspider.py

from scrapy.contrib.spiders import SitemapSpider
from myspider.items import *

class MySpider(SitemapSpider):
    name = "myspider"
    sitemap_urls = ["http://www.example.com/robots.txt"]

    def parse(self, response):
        item = PostItem()           
        item['url'] = response.url
        item['title'] = response.xpath('//title/text()').extract()

        return item

このエラーが発生しています：

raise ValueError('Missing scheme in request url: %s' % self._url)
    exceptions.ValueError: Missing scheme in request url: //www.example.com/10/20-baby-names

サイトマップスパイダーを使用して URL を手動で解析するにはどうすればよいですか?

score 2 · Accepted Answer

正しく表示されていれば、（簡単な解決策として）_parse_sitemapinのデフォルトの実装をオーバーライドできますSitemapSpider。多くのコードをコピーする必要があるため、これは良くありませんが、動作するはずです。スキームを使用して URL を生成するメソッドを追加する必要があります。

"""if the URL starts with // take the current website scheme and make an absolute
URL with the same scheme"""
def _fix_url_bug(url, current_url):
    if url.startswith('//'):
           ':'.join((urlparse.urlsplit(current_url).scheme, url))
       else:
           yield url

def _parse_sitemap(self, response):
    if response.url.endswith('/robots.txt'):
        for url in sitemap_urls_from_robots(response.body)
            yield Request(url, callback=self._parse_sitemap)
    else:
        body = self._get_sitemap_body(response)
        if body is None:
            log.msg(format="Ignoring invalid sitemap: %(response)s",
                    level=log.WARNING, spider=self, response=response)
            return

        s = Sitemap(body)
        if s.type == 'sitemapindex':
            for loc in iterloc(s):
                # added it before follow-test, to allow test to return true
                # if it includes the scheme (yet do not know if this is the better solution)
                loc = _fix_url_bug(loc, response.url)
                if any(x.search(loc) for x in self._follow):
                    yield Request(loc, callback=self._parse_sitemap)
        elif s.type == 'urlset':
            for loc in iterloc(s):
                loc = _fix_url_bug(loc, response.url) # same here
                for r, c in self._cbs:
                    if r.search(loc):
                        yield Request(loc, callback=c)
                        break

これは単なる一般的な考え方であり、テストされていません。したがって、まったく機能しないか、構文エラーが発生する可能性があります。コメントで返信してください。回答を改善できます。

解析しようとしているサイトマップが間違っているようです。RFC ではスキームがなくてもまったく問題ありませんが、サイトマップでは URL がスキームで始まる必要があります。

score 1 · Accepted Answer

@alecxe のトリックを使用して、スパイダー内の URL を解析しました。私はそれを機能させましたが、それが最善の方法であるかどうかはわかりません。

from urlparse import urlparse
import re 
from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.utils.response import body_or_str
from example.items import *

class ExampleSpider(BaseSpider):
    name = "example"
    start_urls = ["http://www.example.com/sitemap.xml"]

    def parse(self,response):
        nodename = 'loc'
        text = body_or_str(response)
        r = re.compile(r"(<%s[\s>])(.*?)(</%s>)" % (nodename, nodename), re.DOTALL)
        for match in r.finditer(text):
            url = match.group(2)
            if url.startswith('//'):
                url = 'http:'+url
                yield Request(url, callback=self.parse_page)

    def parse_page(self, response):
        # print response.url
        item = PostItem()   

        item['url'] = response.url
        item['title'] = response.xpath('//title/text()').extract()
        return item

python - スクレイピー、Pythonでサイトマップスパイダーを使用して、異なるURL形式でサイトマップのURLを解析する

myspider.py

3 に答える 3

Related

Reference