製品の説明を取得するために別の Web サイトをスクレイピングする必要がある Rails 3.2.13 サイトがあります。Rails 3でこれを行う最良の方法は何ですか?
のこぎりが速いと聞いたことがあります。のこぎりを使うべきですか?また、nokogiri を使用すれば、スクレイピングしたデータを保存する必要がなくなる可能性はありますか? API から json データを取得するようなものだと思いますが、そのようなものですか?
製品の説明を取得するために別の Web サイトをスクレイピングする必要がある Rails 3.2.13 サイトがあります。Rails 3でこれを行う最良の方法は何ですか?
のこぎりが速いと聞いたことがあります。のこぎりを使うべきですか?また、nokogiri を使用すれば、スクレイピングしたデータを保存する必要がなくなる可能性はありますか? API から json データを取得するようなものだと思いますが、そのようなものですか?
mechanizeは、他の Web サイトからデータを html としてスクレイピングするための素晴らしい gem です。シンプルで堅牢で、nokogiri gem を結果ラッパーとして使用しています。
次のスニペットは、URL から Safari ブラウザーとして表示される必要なデータを取得する方法を示しています。
require 'htmlentities'
require "mechanize"
a = Mechanize.new { |agent|
agent.user_agent_alias = 'Mac Safari'
}
@resultHash = {}
a.get(url) do |page|
parsedPage = page.parser
@resultHash[:some_data_name] = parsedPage.at_xpath("//h1[@class='any-class']").text.split(/\s+/).join(" ")
end