次のサイトから情報を取得しようとしています:http : //www.ebi.ac.uk/intact/、次にQ9SUE8を検索します。urllibを使用して、ページのhtmlを取得します。
import urllib2
import urllib
url = 'http://www.ebi.ac.uk/intact/'
values = {'queryTxt':'Q9SUE8'}
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()
print the_page
ブラウザからQ9SUE8を検索すると、結果として次の表が表示されます。
# Molecule 'A' Links 'A' Molecule 'B' Links 'B' some more columns
--------------------------------------------------------------------------------
1 T13J8.10 Q9SUE8 GRF7 Q96300
EBI-4459886
Q96300の値を抽出したい。私はhtmlで列ヘッダーを見つけることができます:
<tr>
<td>
<input id="mainPanels:columnSelection:3" type="checkbox" name="mainPanels:columnSelection" checked="checked" value="moleculeB.links" />
<label for="mainPanels:columnSelection:3"> Links 'B'</label>
</td>
</tr>
私はhtmlに精通していませんが、Q96300はvalue="moleculeB.links"から来ていると思います。どうすればその値を取得できますか?