ruby-on-rails - Ruby の壊れた URI.parse を回避し、リダイレクトに従ってください

Question

Rubyを使用して、フォローしたいリダイレクトを返すことがあるWebページをスクレイピングしています。それを行う Ruby gem はたくさんありますが、問題があります。

RubyURI.parseは、技術的に無効であるが次のようなブラウザで動作するいくつかの URI で爆発します。"http://www.google.com/?q=<>"

URI.parse("http://www.google.com/?q=<>")               #=> error

require 'addressable/uri'
Addressable::URI.parse("http://www.google.com/?q=<>")  #=> works

私が試したすべてのHTTPクライアントライブラリ（HttParty、Faraday、RestClient）は、リダイレクトでそのようなURIに遭遇すると壊れます（これはruby 1.9.3にあります）

残りのクライアント:

require 'rest-client'
RestClient.get("http://bitly.com/ReeuYv") #=> explodes

ファラデー:

require 'faraday'
require 'faraday_middleware'
Faraday.use(FaradayMiddleware::FollowRedirects)
Faraday.get("http://bitly.com/ReeuYv")    #=> explodes

httpパーティ:

require 'httparty'
HTTParty.get("http://bitly.com/ReeuYv")   # => explodes

オープン URI:

require 'open-uri'
open("http://bitly.com/ReeuYv")           # => explodes

これを機能させるにはどうすればよいですか？

score 3 · Accepted Answer

Mechanize は、私のお気に入りの Web スクレイピングの宝石です。

Mechanize ライブラリは、Web サイトとの対話を自動化するために使用されます。Mechanize は自動的に Cookie を保存して送信し、リダイレクトに従い、リンクをたどってフォームを送信できます。フォームフィールドにデータを入力して送信できます。また、Mechanize は、訪問したサイトを履歴として追跡します。

require 'mechanize'
agent = Mechanize.new
page = agent.get('http://bitly.com/ReeuYv')
puts page.uri.to_s
=> http://www.google.com/?q=%3C%3E

nokogiri を使用して html を解析するため、すべてのMechanize::Pageオブジェクトを nokogiri オブジェクトのように扱うことができるため、次のような html の一部を取得できます。

puts page.form('f').q
=> <>

最後の部分は黒魔術のように思えるかもしれませんが、実際に試してみる必要がありpp pageます。これにより、HTML を簡単にスクレイピングできます。

ここにを開始するためのガイドとドキュメントがあります。

score 2 · Accepted Answer

Typhoeusの作品：

require 'typhoeus'
Typhoeus::VERSION #=> "0.5.0.rc" 
Typhoeus.get("http://bitly.com/ReeuYv", followlocation: true).body

score 1 · Accepted Answer

縁石はうまくいくようです：

require 'curb'
Curl.get("http://bitly.com/ReeuYv") { |c| 
  c.follow_location = true 
}.body_str  #=>  works

score 0 · Accepted Answer

これはうまくいきます：

uri = URI.escape "http://www.google.com/?q=<>"


#=> "http://www.google.com/?q=%3C%3E"


URI.parse(uri) #=> no error

ruby-on-rails - Ruby の壊れた URI.parse を回避し、リダイレクトに従ってください

残りのクライアント:

ファラデー:

httpパーティ:

オープン URI:

4 に答える 4

Related

Reference