HTMLの解析にpythonとbeautifulsoupを使用しています。
私は次のコードを使用しています:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
url = "http://www.wikipathways.org//index.php?query=signal+transduction+pathway&species=Homo+sapiens&title=Special%3ASearchPathways&doSearch=1&ids=&codes=&type=query"
main_url = urllib2.urlopen(url)
content = main_url.read()
soup = BeautifulSoup(content)
for a in soup.findAll('a',href=True):
print a[href]
しかし、私は次のような出力リンクを取得していません: http://www.wikipathways.org/index.php/Pathway:WP26
また、107 のパスウェイがあることも重要です。しかし、他の行はページの下部にある「リンクを表示」に依存しているため、すべてのリンクを取得することはできません。
では、その URL からすべてのリンク (107 個のリンク) を取得するにはどうすればよいでしょうか?