2

この URL を考慮する: http://www.nyse.com/about/listed/chn.html

「Pacific Ex Japan Funds」という文字列を取得しようとしていますが、スープに含まれていません!?!

fundCode = 'chn'
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html'
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)

テーブルの他の部分がスープに入っているので、これは奇妙です。

何か案が?

4

1 に答える 1

1

HTMLをダウンロードする場合(ブラウザなし)

content = html.read()

ページ データが JavaScript 関数によって提供されていることがわかります。

このページから情報を抽出するには、JavaScript を処理できるライブラリが必要です。

これを行う 1 つの方法はSeleniumを使用することであり、別の方法はPyQt の WebKitを使用することです。

于 2012-11-16T23:34:21.450 に答える