ブラジルのウェブサイトでいくつかのドキュメントを自動的にダウンロードするウェブクローラーを開発しています。また、未知のエンコーディングを使用しています (head タグで文字セットが定義されていません)。
ごくわずかな労力で、ドキュメントを読むことができます。しかし、本当の問題は、ドキュメントをリストするページが、強調文字を含む URL へのリンクを使用していることです。しかし、ページのエンコーディングがわからないまま、urllib2.urlopen から取得すると文字がめちゃくちゃになってしまいます。
たとえばÍ
、文字は次のようになりCyrillic capital letter E
ます。
BeautifulSoup を使用していますが、urllib2 が既に不適切な文字を含むドキュメントを返しているため、prettify が機能しません。
そしてもう 1 つ: soup.originalEncoding
returns None
.
文字セットを認識するように設定urllib2.urlopen
するか、「期待されるエンコーディング」を設定して、ブラウザに表示される文字を返すようにするにはどうすればよいですか?