html - Perl: リストを削除
段落から。HTML 解析

Question

テキストを抽出する必要があるhtmlファイルがたくさんありますが、リストの内容は抽出しません。htmlは次のようになります

<html>

    <Head>
        <title>intranet mycompany</title>
    </head>

    <body>
        <div>blah</div>
        <p>the text i need to extract
            <br>
            <ul>
                <li>stuff i don't want.</li>
                <li>more stuff i don't want.</li>
            </ul>More text i need to exctract.</p>
    </body>

</html>

リストからテキストではなく、段落からテキストを取得する方法についてのアドバイスが本当に欲しいです。アドバイスをいただければ幸いです。

よろしく、ジョンボ。

score 4 · Accepted Answer

use strictures;
use HTML::TreeBuilder::XPath qw();
my $dom = HTML::TreeBuilder::XPath->new_from_content(q(<html> … </body>));
my ($ul) = $dom->findnodes('//ul');
$ul->delete;
my $extract = $dom->findvalue('//p');
# " the text i need to extract  More text i need to exctract. "

score 0 · Accepted Answer

CPAN for HTML Parsers を見てください。 HTML::TreeBuilder、HTML::Parserなどのような素敵なパーサーが得られます。

score 0 · Accepted Answer

データを削除する方法は次のとおりです<ul>。HTML::Parser は、テキストハンドラーを呼び出すときにドキュメント内のどこにあるかを認識していないため、その情報を提供する何らかの方法を見つける必要があります。

start_handler各開始要素に対して呼び出されるに、openend に関するメモを作成し、そのメモ<ul>をend_handler削除するように指示するだけです。その後、内の情報を利用して、内text_handlerのテキストノードをスキップできます<ul>s。

#!/usr/bin/perl -w
use strict;
use HTML::Parser;

my $text = '';
my $parser = HTML::Parser->new(
  start_h => [ \&start_handler, "self,tagname" ],
  end_h   => [ \&end_handler,   "self,tagname" ],
  text_h  => [ \&text_handler,  "self,dtext" ],
);

sub start_handler {
  my ($self, $tag) = @_;
  $self->{_private}->{'ul'} = 1 if ( $tag eq 'ul' ); # make a note
}

sub end_handler {
  my ($self, $tag) = @_;
  $self->{_private}->{'ul'} = 0 if ( $tag eq 'ul' ); # remove the note
}

sub text_handler {
  my ($self, $dtext) = @_;
  unless ($self->{_private}->{'ul'}) {
    # only if we're not inside the <ul>
    $text .= $dtext;
  }
}
$parser->parse_file('test.html');
print $text;

score -4 · Accepted Answer

最も難しいのは、データが複数の行にまたがっていることです。すべての行を 1 つの大きな文字列に結合する場合、次のような単純な正規表現

s/<ul>.*<\/ul>//g

やるべきです。

html - Perl: リストを削除段落から。HTML 解析

4 に答える 4

Related

Reference

html - Perl: リストを削除
段落から。HTML 解析