xml - RubyでXMLタグを解析するときに、すべてのコンテンツの合計を取得するにはどうすればよいですか?

Question

次のようなXHTMLがあります（ただし、実際にはどのXMLでも構いません）。

<h1>
  Hello<span class='punctuation'>,</span>
  <span class='noun'>World<span class='punctuation'>!</span>
</h1>

<h1/>Rubyで文字列としての完全なコンテンツを取得するにはどうすればよいですか? 次のように:

assert_equal "Hello, World!", h1_node.some_method_that_aggregates_all_content

XML フレームワーク ( Nokogiri、libxml-rubyなど) には、このようなものが組み込まれていますか? そうでない場合、Y-Combinator がこの仕事に適したツールかもしれないと思いますが、それがどのようになるかはよくわかりません。

score 3 · Accepted Answer

textNokogiri を使用すると、ノードのを求めることができます。ただし、それを行うときに見られる問題は、そのノードにあるすべての空白と改行が返されることです。そのため、それらを取り除きたい場合があります (この例で行った方法よりも良い方法です)。

以下にサンプルを示します。

def test_nokogiri_text
  value = Nokogiri::HTML.parse(<<-HTML_END)
    "<h1>
      Hello<span class='punctuation'>,</span>
      <span class='noun'>World<span class='punctuation'>!</span>
     </h1>"
  HTML_END

  h1_node = value.search("h1").first
  assert_equal("Hello, World!", h1_node.text.split(/\s+/).join(' ').strip)
end

score 2 · Accepted Answer

Nokogiri のNokogiri::XML::Node#contentがそれを行います:

irb(main):020:0> node
=> <h1>
  Hello<span class="punctuation">,</span>
  <span class="noun">World<span class="punctuation">!</span>
</span>
</h1>
irb(main):021:0> node.content
=> "\n  Hello,\n  World!\n\n"

xml - RubyでXMLタグを解析するときに、すべてのコンテンツの合計を取得するにはどうすればよいですか?

2 に答える 2

Related

Reference