HTML のチャンクがあり、すべてのタグを削除して、リンクに残すことを除いてプレーンテキストのままにしたいと考えてい<a href="url">some text<a>
ます。
BeautifulSoupでこれは可能ですか/簡単ですか?
HTML のチャンクがあり、すべてのタグを削除して、リンクに残すことを除いてプレーンテキストのままにしたいと考えてい<a href="url">some text<a>
ます。
BeautifulSoupでこれは可能ですか/簡単ですか?
これを試して。
import BeautifulSoup
doc = '''<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is <i>paragraph</i> <a onclick="">one</a>.<p id="secondpara" align="blah">This is <i>paragraph</i> <b>two</b>.</html>'''
soup = BeautifulSoup.BeautifulSoup(doc)
for tag in soup.recursiveChildGenerator():
if isinstance(tag,BeautifulSoup.Tag) and tag.name not in ('a'):
print(tag.string)
elif isinstance(tag,BeautifulSoup.Tag) and tag.name in ('a'):
print(tag)