現在、Beautiful Soupを使用してHTMLファイルを解析し、を呼び出しget_text()
ていますが、スペースを表す\xa0Unicodeがたくさん残っているようです。Python 2.7でそれらをすべて削除し、スペースに変更する効率的な方法はありますか?もっと一般的な質問は、Unicodeフォーマットを削除する方法はありますか?
line = line.replace(u'\xa0',' ')
別のスレッドで提案されているように、:を使用してみましたが、\ xa0がuに変更されたため、代わりに「u」がどこにでもあります。):
編集:問題はによって解決されたようですが、せずstr.replace(u'\xa0', ' ').encode('utf-8')
に実行すると、さらに奇妙な文字、たとえば\xc2が吐き出されるようです。誰かがこれを説明できますか?.encode('utf-8')
replace()