python - Beautiful Soup での解析時に head タグ間のコンテンツを削除する

Question

すでに検索しましたが、適切な回答が見つかりませんでした。

url = "http://en.wikipedia.org/wiki/Bryan_Greenberg"
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
try:
    ourUrl = opener.open(url).read()
    soup = BeautifulSoup(ourUrl)
except Exception,err:
    continue
dem = soup.findAll('p')

スクリプトの一部をコピーしました。タイトルとヘッドタグに配置されているすべてのコンテンツを削除するにはどうすればよいですか? なのでスープには入りません。ありがとうございます。

score 1 · Accepted Answer

私は BeautifulSoup をインストールしていないので、テストされていませんが、私が推測するトリックを行う必要があります:

extract()メソッドを使用します。

markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

i_tag = soup.i.extract()

a_tag
# <a href="http://example.com/">I linked to</a>

soup.i.extract()不要なタグ名の代わりにsoup.head.extract(). これにより、ドキュメントからすべての head タグまたは title タグが削除される可能性があることに注意してください (余分なタグがある場合)。この関数を使用したことがないため、正確にはわかりません。

python - Beautiful Soup での解析時に head タグ間のコンテンツを削除する

1 に答える 1

Related

Reference