1

ユニコードの文字列があります。文字列では、文字列内の「\r」文字を「<\p>」に置き換え、それを解析のために BeautifulSoup に渡します。

置換後の文字列の後に印刷すると、置換がうまくいったことがわかります。しかし、文字列を BeautifulSoup に渡すと、< と > のように扱われます。何故ですか ?

エンコーディングに関係しているようですが、よくわかりません。

文字列の交換

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')
4

1 に答える 1

2

<\p>終了タグではありません。スラッシュは逆になります。

fileString = fileString.replace('\r', '</p>')  
于 2012-10-07T03:06:52.020 に答える