HTMLページから(特定のIDの)タグを削除したい。例えば:
<div id="id1" >
"Contents here"
</div>
<div id="id2"> ...</div>
最初のタグを削除したいが、2番目のタグは削除したくない場合、どうすればよいですか?
In [32]: from BeautifulSoup import BeautifulSoup
In [33]: doc = '''<div id="id1" >
"Contents here"
</div>
<div id="id2"> ...</div>'''
In [34]: soup = BeautifulSoup(doc)
In [35]: id1 = soup.find('div', id='id1')
In [36]: print soup
<div id="id1">
"Contents here"
</div>
<div id="id2"> ...</div>
In [37]: id1.extract()
Out[37]:
<div id="id1">
"Contents here"
</div>
In [38]: print soup
<div id="id2"> ...</div>