ショッピング サイトからビデオ ゲーム タイトルのリストを解析しようとしています。ただし、アイテム リストはすべてタグ内に格納されるためです。
ドキュメントのこのセクションでは、ドキュメントの一部のみを解析する方法を説明していると思われますが、うまくいきません。私のコード:
from BeautifulSoup import BeautifulSoup
import urllib
import re
url = "Some Shopping Site"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for a in soup.findAll('a',{'title':re.compile('.+') }):
print a.string
現時点では、空でないタイトル参照を持つタグ内の文字列を出力します。しかし、それは「スペシャル」であるサイドバーのアイテムも掲載しています。商品リストのdivしかとれなかったら一石二鳥です。
どうもありがとう。