2

私はパーサーを作成しています。次の構造があります。

quotes = soup.findAll('div',{'class':'text'})

ただし、すべての html タグ (br など) を取り除きます。どうすれば変更できますか?

4

2 に答える 2

0

findAllそれ自体が HTML ノードのリストを提供します。

テキスト コンテンツ (タグなし) を取得する場合は、 を使用します.get_text()

これらのノードの子を (オブジェクトとしても) 取得するには、.contentsまたは.childrenを使用します。

ノードの子を適切な形式の文字列として出力するには、.prettify(). これは元のフォーマットを正確に保持しないことに注意してください。

参照:
BeautifulSoup innerhtml?

于 2012-11-15T18:38:19.137 に答える
0

テキストからタグを取り出したい場合は、次のようにしてみてください。

for item in quotes:
  quote = re.sub(r"\<.*?\>", "", quote)
于 2012-11-15T18:27:33.043 に答える