python - API の範囲外である Google Finance からの財務データの取得

Question

Google の金融 API は不完全です。次のようなページの図の多くは次のとおりです。

http://www.google.com/finance?fstype=ii&q=NYSE:GE

API 経由では使用できません。

「greenblatt index scans」の Google 検索で入手できる Greenblatt の式に従って、カナダの証券取引所で企業をランク付けするには、このデータが必要です。

私の質問: これらの Web ページのデータにアクセスして処理する最もインテリジェントでクリーンで効率的な方法は何ですか。この場合、退屈なアプローチが本当に必要ですか? もしそうなら、それを行う最善の方法は何ですか? 私は現在、これに関連するプロジェクトのために Python を学んでいます。

score 4 · Accepted Answer

不足している API を提供するよう Google に依頼してみてください。そうしないと、画面のスクレイピングに行き詰まり、決して楽しいものではなく、予告なしに壊れやすく、Google の利用規約に違反する可能性があります。

しかし、それでもスクリーンスクレーパーを作成したい場合は、mechanizeとBeautifulSoupの組み合わせに勝るものはありません。BeautifulSoup は HTML パーサーであり、mechanize は Python ベースの Web ブラウザーであり、ログインして Cookie を保存し、通常は他の Web ブラウザーと同様にナビゲートできます。

score 3 · Accepted Answer

BeautifulSoupは、Python を使用した HTML 解析の推奨される方法です。

Google 以外のオプション (Yahoo Finance API など) を調べましたか?

score 0 · Accepted Answer

Webページをスクレイピングするのは常に面倒ですが、（tidyまたはその他のHTML-> XMLプログラムを介して）xmlに変換してから、xpathを使用して関心のあるノードをウォークすることをお勧めします。

python - API の範囲外である Google Finance からの財務データの取得

3 に答える 3

Related

Reference