HTML文書をDOMツリーに読み込み、HTMLタグをDOM要素として表すRubyのHTMLパーサーはありますか?
Nokogiri は知っていますが、HTML を DOM ツリーに解析しません。
HTML文書をDOMツリーに読み込み、HTMLタグをDOM要素として表すRubyのHTMLパーサーはありますか?
Nokogiri は知っていますが、HTML を DOM ツリーに解析しません。
あなたの発言にもかかわらず、ノコギリは行く方法です:
doc = Nokogiri::HTML('<body><p>Hello, worlds!</body>')
無効なHTMLも解析し、DOMツリーを返します。
>> doc.class
=> Nokogiri::HTML::Document
>> doc.root.class
=> Nokogiri::XML::Element
>> doc.root.children.class
=> Nokogiri::XML::NodeSet
>> doc.root.children.first.content
=> "Hello, worlds!"