次のコードを実行して、html ファイルの開始タグと終了タグのきれいなバージョンを取得しています。
from bs4 import BeautifulSoup
import csv
soup = BeautifulSoup(open("NATI_front_page.htm"))
print soup.originalEncoding
print (soup.prettify())
ただし、このエラーが発生します。
File "front_page_pretty.py", line 8, in <module>
File "C:\Python27\lib\encodings\cp437.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_map)
nicodeEncodeError: 'charmap' codec can't encode character u'\u2122' in position 61769: character maps to <undefined>
私が取得しようとしているのは、次のようなものです。
<html>
<body>
<h1>Hello world</h1>
</body>
</html>
私はpython、美しいスープ、ユニコードが初めてです。このような質問のスタック オーバーフローを調べましたが、何も表示されなかったので、この質問を投稿しました。この問題を解決するにはどうすればよいですか? 事前にご協力いただきありがとうございます。