python - utf-8 での文字のエンコードの問題

Question

を介して美しいスープライブラリを使用して、Web ページからリンクを取得しますa.get('href')。リンク先に変な文字®がありますが、手に入れたらになりましÂ®た。どうすれば正しくエンコードできますか？私はすでにページの先頭に追加しました# -*- coding: utf-8 -*-

r = requests.get(url)

soup = BeautifulSoup(r.text)

score 5 · Accepted Answer

使用しないでくださいr.text。デコードを次のようにしBeautifulSoupます。

soup = BeautifulSoup(r.content)

r.contentデコードせずに、バイト単位で応答を返します。r.text一方、はにデコードされた応答unicodeです。

何が起こるかというと、サーバーが応答ヘッダーに文字セットを含めていないということです。その時点でrequestsは、HTTP RFC 2261 のセクション 3.7.1に従います。デフォルトtext/では、応答は ISO-8859-1 (Latin 1) 文字セットを使用することが期待されます。

あなたの HTML ページでは、そのデフォルトが間違っているため、間違った結果が得られました。r.textバイトを Latin-1 としてデコードした結果、Mojibakeが生成されました。

>>> print u'®'.encode('utf8').decode('latin1')
Â®

HTML 自体は、HTML ヘッダー内のタグの形式で、HTML ページ自体に正しいエンコーディングを含めることができます。BeautifulSoup はそのヘッダーを使用してバイトをデコードします。<meta>

ヘッダータグがない場合でも<meta>、BeautifulSoup にはエンコーディングを自動検出する他の方法が含まれています。

python - utf-8 での文字のエンコードの問題

1 に答える 1

Related

Reference