5

Google の金融 API は不完全です。次のようなページの図の多くは次のとおりです。

http://www.google.com/finance?fstype=ii&q=NYSE:GE

API 経由では使用できません。

「greenblatt index scans」の Google 検索で入手できる Greenblatt の式に従って、カナダの証券取引所で企業をランク付けするには、このデータが必要です。

私の質問: これらの Web ページのデータにアクセスして処理する最もインテリジェントでクリーンで効率的な方法は何ですか。この場合、退屈なアプローチが本当に必要ですか? もしそうなら、それを行う最善の方法は何ですか? 私は現在、これに関連するプロジェクトのために Python を学んでいます。

4

3 に答える 3

4

不足している API を提供するよう Google に依頼してみてください。そうしないと、画面のスクレイピングに行き詰まり、決して楽しいものではなく、予告なしに壊れやすく、Google の利用規約に違反する可能性があります

しかし、それでもスクリーン スクレーパーを作成したい場合は、mechanizeBeautifulSoupの組み合わせに勝るものはありません。BeautifulSoup は HTML パーサーであり、mechanize は Python ベースの Web ブラウザーであり、ログインして Cookie を保存し、通常は他の Web ブラウザーと同様にナビゲートできます。

于 2009-06-17T23:55:59.923 に答える
3

BeautifulSoupは、Python を使用した HTML 解析の推奨される方法です。

Google 以外のオプション (Yahoo Finance API など) を調べましたか?

于 2009-06-17T21:42:24.607 に答える
0

Webページをスクレイピングするのは常に面倒ですが、(tidyまたはその他のHTML-> XMLプログラムを介して)xmlに変換してから、xpathを使用して関心のあるノードをウォークすることをお勧めします。

于 2009-06-17T21:20:17.990 に答える