3

PythonのBeautifulSoupを使用して、HTMLファイルの段落要素内に表示されているすべてのタグを見つける必要があります。
たとえば、
<p>Many hundreds of named mango <a href="/wiki/Cultivar" title="Cultivar">cultivars</a> exist.</p>
次を返す必要があります。
Many hundreds of cultivars exist.

PS一部のファイルには、抽出する必要のあるUnicode文字(ヒンディー語)が含まれています。
それを行う方法はありますか?

4

2 に答える 2

12
soup.findAll('p')

ここにリファレンスがあります

于 2012-04-11T20:52:29.170 に答える
6

BeautifulSoupでそれを行う方法は次のとおりです。これにより、VALID_TAGSにないタグはすべて削除されますが、削除されたタグの内容は保持されます。

from BeautifulSoup import BeautifulSoup

VALID_TAGS = ['div', 'p']

soup = BeautifulSoup(value)

for tag in soup.findAll('p'):
    if tag.name not in VALID_TAGS:
        tag.replaceWith(tag.renderContents())

print soup.renderContents()

参照

于 2012-04-11T20:56:33.783 に答える