1

私はこれまでこれを行ってきました:

import urllib2,re,time
from bs4 import BeautifulSoup
base_url="http://nairobinow.wordpress.com/"
rawEventsData=urllib2.urlopen(base_url).read()
rawEventssoup = BeautifulSoup(rawEventsData)
events=rawEventssoup.findAll("div", {"id": re.compile(r'post-[\d+]')}) 

タグ、会場、日付の後にデータを取得したいと思います。これはイベントブロックです(反復セクションの1つにすぎません):

<div class="post-17149 post type" id="post-17149">
<h2><a href="http://nairobinow.wordpress.com/2012/11/05/out/">Out of Town: Lamuest</a> 
</h2><p>u
Dates: November 15-18, 2012<br/>
Venue: Lamu</p>
<p>Accommodation information: <a href="http://.../index.html"target="_blank"  
>http://www.lamu.org/index.html</a></p></div>

どんな助けでも大歓迎です

4

1 に答える 1

2

あなたの質問を正しく理解していれば、<p>タグ内のデータに興味があるようです。それが正しければ...

まだ気付いていない場合.findAll()は、リストを返します。この場合、div対応idするものが返されます。

あなたがする必要があるのは、繰り返すことだけですevents

for event in events:
    print event('p')[0]

これは戻ります:

<p>u Dates: November 15-18, 2012<br/> Venue: Lamu</p>

.contentsタグを削除するために使用します。.contentsインデックスに基づいてテキストが呼び出されることに注意してください。つまり、.contents[0]おそらく戻りDates: November 15-18,ます.contents[1]が、おそらく戻りVenue: Lamuます。

これをいじって、ニーズに合ったものを見つける必要があります。これが質問に答えてくれることを願っています。少し漠然としていましたが、とにかく試してみます。

于 2012-11-05T14:56:31.403 に答える