1

製品の説明を取得するために別の Web サイトをスクレイピングする必要がある Rails 3.2.13 サイトがあります。Rails 3でこれを行う最良の方法は何ですか?

のこぎりが速いと聞いたことがあります。のこぎりを使うべきですか?また、nokogiri を使用すれば、スクレイピングしたデータを保存する必要がなくなる可能性はありますか? API から json データを取得するようなものだと思いますが、そのようなものですか?

4

2 に答える 2

2

mechanizeは、他の Web サイトからデータを html としてスクレイピングするための素晴らしい gem です。シンプルで堅牢で、nokogiri gem を結果ラッパーとして使用しています。

次のスニペットは、URL から Safari ブラウザーとして表示される必要なデータを取得する方法を示しています。

require 'htmlentities'
require "mechanize"
a = Mechanize.new { |agent|
    agent.user_agent_alias = 'Mac Safari'
}
@resultHash = {}

a.get(url) do |page|
    parsedPage = page.parser
    @resultHash[:some_data_name] = parsedPage.at_xpath("//h1[@class='any-class']").text.split(/\s+/).join(" ")
end
于 2013-08-12T05:31:03.047 に答える