python - 内部のすべてのテキストを見つける方法
BeautifulSoupを使用したHTMLページの要素

Question

PythonのBeautifulSoupを使用して、HTMLファイルの段落要素内に表示されているすべてのタグを見つける必要があります。
たとえば、
<p>Many hundreds of named mango <a href="/wiki/Cultivar" title="Cultivar">cultivars</a> exist.</p>
次を返す必要があります。
Many hundreds of cultivars exist.

PS一部のファイルには、抽出する必要のあるUnicode文字（ヒンディー語）が含まれています。
それを行う方法はありますか？

score 12 · Accepted Answer

12

soup.findAll('p')

ここにリファレンスがあります

于 2012-04-11T20:52:29.170 に答える

score 6 · Accepted Answer

BeautifulSoupでそれを行う方法は次のとおりです。これにより、VALID_TAGSにないタグはすべて削除されますが、削除されたタグの内容は保持されます。

from BeautifulSoup import BeautifulSoup

VALID_TAGS = ['div', 'p']

soup = BeautifulSoup(value)

for tag in soup.findAll('p'):
    if tag.name not in VALID_TAGS:
        tag.replaceWith(tag.renderContents())

print soup.renderContents()

参照

python - 内部のすべてのテキストを見つける方法BeautifulSoupを使用したHTMLページの要素

2 に答える 2

Related

Reference

python - 内部のすべてのテキストを見つける方法
BeautifulSoupを使用したHTMLページの要素