3

ページの読み込み後にjqueryを介して更新されるこのWebサイトのテーブルのデータを取得しようとしています(許可があります):

http://whichchart.com/

現在、セレンとbeautifulsoupを使用してデータを取得していますが、このデータはhtmlソースに表示されないため、アクセスできません。PyQt4 を試してみましたが、同様に更新された html ソースを取得できません。

値は firebug と chrome の開発者に表示されます。これを悪用して、beautifulsoup にフィードできる Python パッケージはありますか?

私は大規模な技術者ではないので、理想的には、Python または次に簡単なソフトウェア タイプで動作するソリューションが必要です。

独自の「スクリーンスクレーパー」ソフトウェアを介して入手できることは承知していますが、それは高価です。

4

1 に答える 1

5

ページは AJAX 呼び出しを行って、JSON で値を返すhttp://whichchart.com/service.php?action=NewcastleCoalにデータを取得します。したがって、次のことができます。

  • urllib を使用して HTTP を使用してデータを取得する
  • json ライブラリの read メソッドでそのデータを解析する
  • これで、処理する Python オブジェクトができました

HTMLページのコンテンツを処理する必要がある場合は、BeautifulSoupやscrapyなどのライブラリを使用することをお勧めします

于 2012-05-03T23:10:23.937 に答える