python - 美しいスープと配列の文字列部分の抽出

Question

「Pacific Ex Japan Funds」という文字列を取得しようとしていますが、スープに含まれていません!?!

fundCode = 'chn'
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html'
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)

テーブルの他の部分がスープに入っているので、これは奇妙です。

何か案が？

score 1 · Accepted Answer

HTMLをダウンロードする場合（ブラウザなし）

content = html.read()

ページデータが JavaScript 関数によって提供されていることがわかります。

このページから情報を抽出するには、JavaScript を処理できるライブラリが必要です。

これを行う 1 つの方法はSeleniumを使用することであり、別の方法はPyQt の WebKitを使用することです。

1 に答える 1