python - BeautifulSoup で '<' '>' html タグを扱う BeautifulSoup

Question

ユニコードの文字列があります。文字列では、文字列内の「\r」文字を「<\p>」に置き換え、それを解析のために BeautifulSoup に渡します。

置換後の文字列の後に印刷すると、置換がうまくいったことがわかります。しかし、文字列を BeautifulSoup に渡すと、< と > のように扱われます。何故ですか？

エンコーディングに関係しているようですが、よくわかりません。

文字列の交換

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')

score 2 · Accepted Answer

<\p>終了タグではありません。スラッシュは逆になります。

fileString = fileString.replace('\r', '</p>')

python - BeautifulSoup で '<' '>' html タグを扱う BeautifulSoup

1 に答える 1

Related

Reference