3

BeautifulSoup に関する Python プログラミングの問題で立ち往生しています。

最初に、Web ページのソース ページからすべてのタグを抽出する関数を作成する必要がありました。私はこれを次のようにしました:

    from bs4 import BeautifulSoup

    soup=BeautifulSoup(''.join(data))

    def parseUsingSoup(content):
        return soup.findAll('h3')

私が解析しようとしている Web サイトは次のとおりです

h3 タグが 1 つだけ含まれていました。この問題では、関数を拡張して、p タグ内の関連するすべてのコンテンツも返すようにする必要があります。また、イベントの日付、タイトル、タイプ、および説明を示す 4 つのタプルを使用して、イベントのリストを要求します。

これを行う方法がよくわかりません。あらゆる種類のことを試しましたが、適切な結果が得られません。前もって感謝します。

4

1 に答える 1

4

の下にあるすべての<p>タグを取得する方法の 1 つを次に示し<h3>ます。

from bs4 import BeautifulSoup
import urllib2

content = 'http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html?page=1&pageSize=40'

soup = BeautifulSoup(urllib2.urlopen(content))

for x in soup.findAll('h3'):
    for y in soup.findAll('p'):
        print y

次に、この出力を適切に解析してリストにすることができます。

于 2013-03-29T16:52:09.153 に答える