学校の図書館が購読しているリソースのリストから、リソース/データベース名と ID のリストを取得しようとしています。さまざまなリソースをリストしたページがあり、urllib2 を使用してページを取得できますが、そのページを BeautifulSoup に渡すと、リスト内の最初のリソースのエントリが終了する直前でツリーが切り捨てられます。問題は、リソースを検索セットに追加するために使用される画像リンクにあるようです。ここで話が途切れます。HTML は次のとおりです。
<a href="http://www2.lib.myschool.edu:7017/V/ACDYFUAMVRFJRN4PV8CIL7RUPC9QXMQT8SFV2DVDSBA5GBJCTT-45899?func=find-db-add-res&resource=XYZ00618&z122_key=000000000&function-in=www_v_find_db_0" onclick='javascript:addToz122("XYZ00618","000000000","myImageXYZ00618","http://discover.lib.myschool.edu:8331/V/ACDYFUAMVRFJRN4PV8CIL7RUPC9QXMQT8SFV2DVDSBA5GBJCTT-45900");return false;'>
<img name="myImageXYZ00618" id="myImageXYZ00618" src="http://www2.lib.myschool.edu:7017/INS01/icon_eng/v-add_favorite.png" title="Add to My Sets" alt="Add to My Sets" border="0">
</a>
そして、ここに私のpythonコードがあります:
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://discover.lib.myschool.edu:8331/V?func=find-db-1-title&mode=titles&scan_start=latp&scan_utf=D&azlist=Y&restricted=all")
print BeautifulSoup(page).prettify
BeautifulSoup のバージョンでは、開始<a href...>
は表示されますが、は表示され<img>
ず、<a>
はすぐに閉じられ、残りの開始タグも</html>
.
これらの「セットに追加」画像で見られる唯一の特徴は、名前と id 属性を持つ唯一の画像であるということです。しかし、それによって BeautifulSoup がすぐに解析を停止する理由がわかりません。
注: 私は Python をまったく初めて使用しますが、問題なく理解できているようです。
ご協力ありがとうございました!