ユニコードの文字列があります。文字列では、文字列内の「\r」文字を「<\p>」に置き換え、それを解析のために BeautifulSoup に渡します。
置換後の文字列の後に印刷すると、置換がうまくいったことがわかります。しかし、文字列を BeautifulSoup に渡すと、< と > のように扱われます。何故ですか ?
エンコーディングに関係しているようですが、よくわかりません。
文字列の交換
fileString.encode('utf-8')
fileString = re.sub('\r', "/<\p>", fileString)
fileString.encode('utf-8')
htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')