python - BeautifulSoup のフィルタリング

Question

別の Web ページから大学とその Web サイトのリストを取得しようとしています。

必要な行ごとに HTML を表示するために入力を取得しましたが、テキストをさらにフォーマットしようとしています。大学名とその大学へのリンクのみを表示したい。何か案は？

これが私のコードです：

url = "http://www.arizona.edu/colleges"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
universities = soup.findAll('span', {'class' : 'field-content'})
for eachuniversity in universities:
   print eachuniversity

そして、これが私が得るものの例ですeachuniversity:

<div class="views-field-title">
  <span class="field-content">
    <a href="/colleges/college-agriculture-life-sciences">
    <h3>College of Agriculture &amp; Life Sciences</h3>
    </a>
  </span>
</div>

score 4 · Accepted Answer

以下は、あなたが探しているものを取得します。これを行うために使用される情報は、 BeautifulSoup のドキュメント(バージョン 4 ドキュメント)で簡単にアクセスできます。

for uni in universities:
    link = uni.find("a")
    college_name = link.text
    web_page = link["href"]

最初のユニ（あなたの例）の場合：

>>> print web_page
"/colleges/college-agriculture-life-sciences"
>>> print college_name
College of Agriculture &amp; Life Sciences

相対/絶対リンクと特殊な HTML 文字の処理は演習として残します。

これがどのように機能するか

あなたの最近の質問から、uniオブジェクトからタグを抽出するのに問題があると思われます。変数universitiesはTagオブジェクトのコレクションであり、それぞれがその子にアクセスするために使用できる辞書のようなオブジェクトです。「解析ツリーのナビゲート」を読んで、BeautifulSoup で解析がどのように機能するかをよりよく理解してください。

python - BeautifulSoup のフィルタリング

1 に答える 1

これがどのように機能するか

Related

Reference