わかりましたので、この html ページ (さまざまな URL でいっぱい) があり、ここで単一の URL を取得して印刷します。
Web ページは次のとおりです。https://bdkv2.borger.dk/foa/Sider/default.aspx?fk=22&foaid=11523251
URL www.albertslund.dk を印刷したい
ソースコードでは次のようになります。
<a href="http://www.albertslund.dk" id="_uscAncHomesite" target="_blank"><strong><span id="ctl00_PlaceHolderMain_FormControlHandler1__uscShowDataAuthorityDetails__uscLblHomesite">http://www.albertslund.dk</span></strong></a>
IDを使用して(BeautifulSoupとMechanizeを使用して)取得して印刷しようとすると、空のリストが返されます。ID を使用して URL を取得したいと思います。これは、必要なものが同じ ID を持つ類似のサイトを多数スクレイピングしているためです。
kommuneside = br.open(https://bdkv2.borger.dk/foa/Sider/default.aspx?fk=22&foaid=11523251)
html2 = kommuneside.read()
soup2 = BeautifulSoup(html2)
hjemmesidelink = soup2.findAll('a', attras={'ID':'_uscAncHomesite'})
print hjemmesidelink
これは空のリストのみを返します: []
私がこのようにしようとすると:
print hjemmesidelink['href']
私は得る: TypeError: リストのインデックスは str ではなく整数でなければならない
とても簡単だと思っていたのですが、私は新人なので、何日も悩まされてきました。