perl - Perl の XML::LibXML を使用してタグ間のコンテンツを抽出するにはどうすればよいですか?

Question

次のような内容の XML ファイルがあります。

<Node id="7"/>
www
<Node id="10"/>

XML::LibXML と Perl を使用して、2 つのノード間のコンテンツ、つまり「www」を取得するにはどうすればよいでしょうか?

ありがとうございました。

score 2 · Accepted Answer

あなたが扱っている XML 形式はひどいものです !*

ノードが与えられた場合、その兄弟であり、すぐ後に続き (おそらく中間コメントを除く)、テキストノードであるノードが必要です。

use strict;
use warnings;
use feature qw( say );

use XML::LibXML qw( XML_COMMENT_NODE XML_TEXT_NODE );

sub following_text {
   my ($node) = @_;
   my $text = '';
   while ($node = $node->nextSibling()) {
      my $node_type = $node->nodeType();
      next if $node_type == XML_COMMENT_NODE;
      last if $node_type != XML_TEXT_NODE;
      $text .= $node->data();   
   }

   return $text;
}

my $parser = XML::LibXML->new();
my $doc    = $parser->parse_fh(\*DATA);
my $root   = $doc->documentElement();
my ($node) = $root->findnodes('//Node[@id="7"]');
my $text   = following_text($node);

say $text;

__DATA__
<root>
<Node id="7"/>
www
<Node id="10"/>
bar
</root>

* —wwwの子である必要がありNodeます。たとえば、<Node id="7">www</Node>より良いでしょう。

perl - Perl の XML::LibXML を使用してタグ間のコンテンツを抽出するにはどうすればよいですか?

1 に答える 1

Related

Reference