最終的な出力がテキスト ファイルになるように、すべての HTML を文字列から削除しようとしています。私はさまざまな「コンバーター」についていくつかの調査を行っており、エンティティとシンボルの独自の辞書を作成し、文字列で置換を実行することに傾倒し始めています。プロセスを自動化したいのですが、基礎となる html の品質には多くのばらつきがあるため、これを検討しています。私のソリューションの速度と、pyparsing などの代替手段の 1 つを比較するために、文字列メソッド replace を使用して \xa0 の置換をテストすることにしました。私は得る
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)
実際のコード行は
s=unicodestring.replace('\xa0','')
とにかく、r を前に付ける必要があると判断したので、次のコード行を実行しました。
s=unicodestring.replace(r'\xa0','')
エラーなしで実行されますが、s のスライスを見ると、\xaO がまだそこにあることがわかります