私はここで大変な問題を抱えています。ruby on rails を使用しています: ruby 1.8.7 (2011-12-10 patchlevel 356) rails 2.3.14
次のアドレスで open-uri を使用して簡単に開くことを試みています。
http://jollymag.net/n/10390 -летни-секс-пози-във-водата.html (リンクはNSFW )
ただし、結果のファイルを読み取ると、奇妙な (壊れた) 文字列が生成されます。これは ruby 1.9.3 と rails 3.2.x でもテストされました。
require 'open-uri'
url = 'http://jollymag.net/n/10390-летни-секс-пози-във-водата.html'
url = URI.encode(url)
file = open(url)
doc = file.collect.to_s # <- the document is broken
document = Nokogiri::HTML.parse(doc,nil,"utf8")
puts document # <- the document after nokogiri has one line of content
Iconv などを試しましたが、何も機能しません。上記のコードは、正確な問題の最小限の孤立したケースです。
このバグを数日間理解しようとしているので、助けていただければ幸いです。
よろしく、ヤボール