python -
美しいスープに保存する

Question

私はパーサーを作成しています。次の構造があります。

quotes = soup.findAll('div',{'class':'text'})

ただし、すべての html タグ (br など) を取り除きます。どうすれば変更できますか？

score 0 · Accepted Answer

findAllそれ自体が HTML ノードのリストを提供します。

テキストコンテンツ (タグなし) を取得する場合は、を使用します.get_text()。

これらのノードの子を (オブジェクトとしても) 取得するには、.contentsまたは.childrenを使用します。

ノードの子を適切な形式の文字列として出力するには、.prettify(). これは元のフォーマットを正確に保持しないことに注意してください。

score 0 · Accepted Answer

テキストからタグを取り出したい場合は、次のようにしてみてください。

for item in quotes:
  quote = re.sub(r"\<.*?\>", "", quote)

2 に答える 2