私はパーサーを作成しています。次の構造があります。
quotes = soup.findAll('div',{'class':'text'})
ただし、すべての html タグ (br など) を取り除きます。どうすれば変更できますか?
私はパーサーを作成しています。次の構造があります。
quotes = soup.findAll('div',{'class':'text'})
ただし、すべての html タグ (br など) を取り除きます。どうすれば変更できますか?
findAll
それ自体が HTML ノードのリストを提供します。
テキスト コンテンツ (タグなし) を取得する場合は、 を使用します.get_text()
。
これらのノードの子を (オブジェクトとしても) 取得するには、.contents
または.children
を使用します。
ノードの子を適切な形式の文字列として出力するには、.prettify()
. これは元のフォーマットを正確に保持しないことに注意してください。
テキストからタグを取り出したい場合は、次のようにしてみてください。
for item in quotes:
quote = re.sub(r"\<.*?\>", "", quote)