BBCスポーツのページからメインの見出し(現在:「ウェンガーは「アクティブな」1月を予測」)を引っ張ろうとしています. ID は「lead-caption」で<h2>
、<a>
タグ内にあります。私はPythonを使用しています。
from bs4 import BeautifulSoup
import urllib2
url = urllib2.urlopen("http://www.bbc.co.uk/sport/football/teams/arsenal")
soup=BeautifulSoup(url.read())
#Things I've tried
headline=soup.find('a', attrs={'id': 'lead-caption'})
print headline
#The above prints 'None'
headline1=soup.find('lead-caption').getText()
print headline1
#The above print "'NoneTpye' Object has no attirbute 'getText'
tag = soup.a
tag ['id'] = 'lead-caption'
type(tag)
print tag.string
#Error: NoneType object does not support item assignment
どんな助けでも大歓迎です。ありがとう :)