データベースをループして、文字列に対して美しいスープ処理を実行し、テキストを他のテキストに置き換えるなどのスクリプトがあります。
これはほとんどの場合100%機能しますが、一部のhtml blobには、次のエラーでスクリプトを壊すユニコードテキストが含まれているようです。
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 112: ordinal not in range(128)
この場合の対処方法がわかりません。文字列内のすべてのテキストを標準化されたutf-8などにするモジュール/関数を知っている人はいますか?
データベース内のすべてのhtmlblobは、feedparser(rssフィードのダウンロード、dbへの保存)から取得されました。