HTMLファイルに、ソフトハイフンを含む単語があります。
"Schilde rung"
repr(word) = "Schilde\\xc2\\xadrung"
どうすれば削除できますか?
私のファイルにはウムラウトやその他の特殊文字も含まれているため、printable または with を使用したソリューションwords.decode('ascii', 'ignore')
はあまり良くありません...
私はすでにそれを使用して試しましたwords.replace('\xc2\xad', '')
; しかし、これはうまくいきませんでした。
助けてくれてありがとう:)