5

BeautifulSoup を使用して、特定のドメインを指すページ内のすべてのリンクを見つけるにはどうすればよいですか?

4

1 に答える 1

8

スープストレーナーを使用し、

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

# Find all links
links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]

linkstodomain = SoupStrainer('a', href=re.compile('example.com/'))

編集:公式ドキュメントの変更例。

于 2010-01-28T00:23:30.237 に答える