javascript - Pythons BeautifulSoup を使用して、動的に読み込まれる JavaScript で覆われた Web サイトをスクレイピングする

翻译自：https://stackoverflow.com/questions/18034291 2013-08-03T15:18:56.737

128 次

2

Python 2.7.2 で BeautifulSoup を使用してスクリーンスクレイピングを開始したばかりで、この Web サイトからデータを取得したいと考えています。

http://www.trainsimple.com/SelfPaced.aspx

ただし、urllib2 を使用してこの URL を開き、LXML を使用してそれを解析すると、.prettify() 関数を使用すると大量のゴミが生成されます。

ページソースを表示した後、ページが実際に JavaScript を使用してレンダリングされ、div が動的に読み込まれていることがわかります。

このウェブサイトからデータを取得する方法を知っている人はいますか?

ありがとうございました

0 に答える 0