私はbeautifulsoupのエンコーディングに慣れていません。
一部のページに取り組むと、一部の属性が中国語であり、この中国語属性を使用してタグを抽出したいと考えています。
たとえば、次のような html:
<P class=img_s>
<A href="/pic/93/b67793.jpg" target="_blank" title="查看大图">
<IMG src="/pic/93/s67793.jpg">
</A>
</P>
「/pic/93/b67793.jpg」を抽出したいので、次のようにします。
img_urls = form_soup.findAll('a',title='查看大图')
そして遭遇:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb2 in position 0: ordinalnot in range(128)
これに取り組むために、私は2つの方法を実行しましたが、どちらも失敗しました.1つの方法は次のとおりです:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
別の方法は次のとおりです。
response = unicode(response, 'gb2312','ignore').encode('utf-8','ignore')