python - スクレイピーでウェブスクレイピングするときの文字エンコーディングの問題

Question

テキストのエンコーディングに問題があり、Web サイトからスクレイピングしています。具体的には、デンマーク文字の æ、ø、å が間違って出力されています。Web ページのエンコーディングは UTF-8 であると確信しています。ブラウザはこのエンコーディングで正しく表示されているからです。

他の多くの投稿が示唆しているように、私は BeautifulSoup を使用してみましたが、それは良くありませんでした. しかし、おそらく私はそれを間違っていました。

Windows 7 32ビットOSでpython 2.7を使用しています。

私が持っているコードはこれです：

# -*- coding: UTF-8 -*-

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item, Field

class Sale(Item):
    Adresse = Field()
    Pris = Field()
    Salgsdato = Field()
    SalgsType = Field()
    KvmPris = Field()
    Rum = Field()
    Postnummer = Field()
    Boligtype = Field()
    Kvm = Field()
    Bygget = Field()

class HouseSpider(BaseSpider):
    name = 'House'
    allowed_domains = ["http://boliga.dk/"]
    start_urls = ['http://www.boliga.dk/salg/resultater?so=1&type=Villa&type=Ejerlejlighed&type=R%%C3%%A6kkehus&kom=&amt=&fraPostnr=&tilPostnr=&iPostnr=&gade=&min=&max=&byggetMin=&byggetMax=&minRooms=&maxRooms=&minSize=&maxSize=&minsaledate=1992&maxsaledate=today&kode=&p=%d' %n for n in xrange(1, 3, 1)]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select("id('searchresult')/tr")
        items = []      
        for site in sites:
            item = Sale()
            item['Adresse'] = site.select("td[1]/a[1]/text()").extract()
            item['Pris'] = site.select("td[2]/text()").extract()
            item['Salgsdato'] = site.select("td[3]/text()").extract()
            item['SalgsType'] = site.select("td[4]/text()").extract()
            item['KvmPris'] = site.select("td[5]/text()").extract()
            item['Rum'] = site.select("td[6]/text()").extract()
            item['Postnummer'] = site.select("td[7]/text()").extract()
            item['Boligtype'] = site.select("td[8]/text()").extract()
            item['Kvm'] = site.select("td[9]/text()").extract()
            item['Bygget'] = site.select("td[10]/text()").extract()
            items.append(item)
        return items

æ、ø、åを含むのは、「Adresse」と「Salgstype」の項目です。どんな助けでも大歓迎です！

乾杯、

python - スクレイピーでウェブスクレイピングするときの文字エンコーディングの問題

1 に答える 1

Related

Reference