1

次のコードを実行して、html ファイルの開始タグと終了タグのきれいなバージョンを取得しています。

from bs4 import BeautifulSoup
import csv

soup = BeautifulSoup(open("NATI_front_page.htm"))

print soup.originalEncoding

print (soup.prettify())

ただし、このエラーが発生します。

File "front_page_pretty.py", line 8, in <module>
File "C:\Python27\lib\encodings\cp437.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_map)
nicodeEncodeError: 'charmap' codec can't encode character u'\u2122' in position 61769:   character maps to <undefined>

私が取得しようとしているのは、次のようなものです。

<html>
 <body>
  <h1>Hello world</h1>
 </body>
</html>

私はpython、美しいスープ、ユニコードが初めてです。このような質問のスタック オーバーフローを調べましたが、何も表示されなかったので、この質問を投稿しました。この問題を解決するにはどうすればよいですか? 事前にご協力いただきありがとうございます。

4

2 に答える 2