0

XML::SAX を使用して XHTML ドキュメントの一部を変更しようとしていますが、すべて失敗しました。

これが私がやろうとしていることです:

#!/usr/bin/perl 
package MyHandler;
use strict;
use warnings;

use base qw(XML::SAX::Base);
use Data::Dumper;

sub start_element {
    my $self = shift;
    my $data = shift;

    if( $data->{LocalName} eq 'span') {
        $data->{LocalName} = 'naps';
    }

    $self->SUPER::start_element($data); # GOOD (and easy) !
    #print Dumper($data); 
}

1;

#============================
#Main programm
#============================
use strict;
use warnings;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

my $out;

my $o = XML::SAX::Writer->new( Output => \$out );
my $h = MyHandler->new( Handler => $o );
my $p = XML::SAX::ParserFactory->parser(Handler => $h);

my $data;
{ local undef $/ }; $data = <DATA>;
$p->parse_string( $data );
print $out;


__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>


        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>


        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

    </form>
</wicket:panel>
</body>
</html> 

基本的な考え方は、すべての「スパン」を「ナップ」に変更し、結果の変更された XML を STDOUT に書き込むことです。

また、SAX を使用して xml チャンクをマージできるかどうかを確認できれば幸いです。つまり、別の要素に展開される特定の要素を見つけた場合、それを STDOUT への出力とマージするにはどうすればよいでしょうか?

例:

<xmltag>
    <expandable/>
</xmltag>

に:

<xmltag>
    <expanded>
        This is an expanded element
    </expanded>
</xmltag>

ありがとう。

4

4 に答える 4

2

SAXは、このような些細な変更に最適なツールではありません。DOMの実装について考えてみましょう。

use strictures;
use XML::LibXML qw();
my $dom = XML::LibXML->load_xml(…);

for my $e ($dom->findnodes('//*')) {
    $e->setNodeName('naps') if 'span' eq $e->nodeName;
    if ('expandable' eq $e->nodeName) {
        $e->setNodeName('expanded');
        $e->appendText('This is an expanded element');
    }
}
print $dom->toString; # ->toFile
于 2012-04-20T07:14:44.423 に答える
2

これはXML::Twigベースのソリューションで、SAX よりも使いやすいと思います (ただし、少し偏見があるかもしれません ;--)。span1 (またはexpandable) 要素のみがメモリに保持されるため、メモリ効率が非常に高くなります。

#!/usr/bin/perl

use strict;
use warnings;

use XML::Twig;

XML::Twig->new( twig_roots => { span       => sub { $_->set_tag( 'naps')->flush; },
                                expandable => sub { XML::Twig::Elt->new( expanded => 'this is an expanded element')->print; },
                              },
                twig_print_outside_roots => 1,
              )
          ->parsefile( \*DATA);
__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>


        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>


        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

    </form>

<xmltag>
    <expandable/>
</xmltag>

</wicket:panel>
</body>
</html> 
于 2012-04-20T09:49:40.827 に答える
1

WriterはLocalName ではなくKey Nameから要素名を選択するようです。そのため、 LocalNameを変更する代わりに、Nameを変更して目的の結果を得ます。

if( $data->{LocalName} eq 'span') {
    $data->{LocalName} = 'naps';
}

に変更します

if( $data->{LocalName} eq 'span') {
    $data->{Name} = 'naps';
}
于 2012-04-20T07:13:26.623 に答える
1

要素のマージ/拡張に関する私自身の質問に答えるために、sax でそれを行う方法のスニペットを次に示します。

#!/usr/bin/perl 
package MyHandler;
use strict;
use warnings;

use base qw(XML::SAX::Base);
use Data::Dumper;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

sub start_element {
    my $self = shift;
    my $data = shift;

    if( $data->{LocalName} eq 'expand') {
        $self->{in_include}++;
        my $p = XML::SAX::ParserFactory->parser( Handler => $self );
        $p->parse_string( "<expanded>This is my expanded tag</expanded>" );
        return;
    }

    #$data->{Attributes} = undef;
    $self->SUPER::start_element($data);
    #print Dumper($data); 
}

sub characters {
    my $self = shift;
    my $data = shift;

    #print "Data is $data->{Data}" if defined $data->{Data}; 
    $self->SUPER::characters($data);
}

sub end_element {
    my ($self, $element) = @_;
    if ($element->{LocalName} eq "expand") {
        $self->{in_include}--;
    } else {
        $self->SUPER::end_element($element);
    }
}

sub start_document { # same for end_document
    my($self, $data) = @_;
    return if($self->{in_include});
    $self->SUPER::start_document($data);
}

sub end_document { # same for end_document
    my($self, $data) = @_;
    return if($self->{in_include});
    $self->SUPER::end_document($data);
}

1;

#============================
#Main programm
#============================
use strict;
use warnings;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

my $out;

my $o = XML::SAX::Writer->new( Output => \$out );
my $h = MyHandler->new( Handler => $o );
my $p = XML::SAX::ParserFactory->parser(Handler => $h);

my $data;
{ local undef $/ }; $data = <DATA>;
$p->parse_string( $data );
print $out;


__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>

        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>

        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

        <expand/>

    </form>
</wicket:panel>
</body>
</html> 

タグは<expand/>に置き換えられ<expanded>This is my expanded tag</expanded>ます。

基本的に必要なのは、新しいパーサーを作成し、解析するファイル/文字列を渡すことだけです。ただし、いくつかの落とし穴があることに注意してください。1 つ目は、展開するタグをインターセプトしたイベントの伝播を停止することです。言い換えると、タグを展開/ネストするたびに $self->SUPER::start/end_element を呼び出さないでください。これにより、置き換えられたタグが出力に含まれるのを防ぐことができます。次に、start_document/end_document をインターセプトし、それらの親の呼び出しをスキップする必要があります。そうしないと、次のエラーが発生します。

/usr/share/perl5/XML/NamespaceSupport.pm 行 79、チャンク 1 でコンテキストをプッシュせずにコンテキストをポップしようとしています。

つまり、一部のクリーンアップは失敗します。

このメッセージは、XML::NamespaceSupport が start_document イベントで初期化を行い、end_document イベントでクリーンアップを行うために発生しています。問題は、コードでは、メイン ドキュメントに対してこれらのイベントのペアが存在し、含まれる各ドキュメントに対してネストされたペアが存在することです。2 番目の end_document イベントが発生すると、クリーンアップするものがないため、メッセージが表示されます。 ここから撮影

于 2012-04-21T06:47:52.253 に答える