次のようなものを使用する「RubyまたはNokogiriを使用してページの生のHTMLソースコードを取得する方法」を見てきました。
file = open("index.html")
puts file.read
page = Nokogiri::HTML(file)
しかし、読み取りポイントがファイルの最後に移動しているため、ノコギリはファイルを読み取ることができなくなっているようです。read
とのこぎりの呼び出しを入れ替えると:
file = open("index.html")
puts file.read
page = Nokogiri::HTML(file)
ファイルは出力されなくなります。Nokogiriが元々使用していたHTMLを照会できるようにしたいので、生のソースに対して独自の追加の解析を行うことができます。理想的には、
file = open("index.html")
page = Nokogiri::HTML(file)
raw_html = page.html
注:私も試しましpage.to_html
たが、フォーマットが少し変わっているようです。