10

作業中のRubyスクリプトでWebページをスクレイプしようとしています。プロジェクトの目的は、どのETFと株式投資信託がバリュー投資哲学と最も互換性があるかを示すことです。

スクレイプしたいページの例は次のとおりです。

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

Rubyに推奨するWebスクレイピングツールとその理由を教えてください。そこには何千もの株式ファンドがあることを覚えておいてください、それで私が使うどんなツールも適度に速くなければなりません。

私はRubyを初めて使用しますが、lxmlを使用してPythonでWebページをスクレイプした経験があります(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py)。5000以上の株のページがダウンロードされると、lxmlはわずか数分でそれらすべてをスクレイプできます。(BeautifulSoupを試したのを覚えていますが、遅すぎたため拒否しました。)

4

2 に答える 2

22

HpricotNokogiriなど、たくさんの商品がありscraping gemsます。こすることをお勧めします。スクレイピングしている場合(ボタンのクリック、フォームの送信などを含む)。内部でを使用するMechanizeをお勧めします。RubyNokogiristatic web pagesdynamic web pagesNokogiri

于 2013-02-23T05:38:57.907 に答える
1

https://www.ruby-toolbox.com/categories/html_parsing.htmlに HTML 解析ソリューションのリストが表示されます。まだ現役なのはノコギリだけなので。

于 2013-02-23T07:10:08.150 に答える