html - Perlを使用してテーブルの内容を抽出する

Question

HTML::TableExtractを使用してhtmlファイルからテーブルコンテンツを抽出しようとしています。私の問題は、私のhtmlファイルが次のように構成されていることです。

<!DOCTYPE html>
<html>
<body>

    <h4>One row and three columns:</h4>

    <table border="1">
      <tr>
        <td>
        <p> 100 </p></td>
        <td>
        <p> 200 </p></td>
        <td>
        <p> 300 </p></td>
        </tr>
      <tr>
        <td>
        <p> 100 </p></td>
        <td>
        <p> 200 </p></td>
        <td>
        <p> 300 </p></td>
        </tr>
    </table>
</body>
</html>

この構造のため、私の出力は次のようになります。

私が欲しいものの代わりに：

   100|200|300|
   400|500|600|

手伝ってもらえますか？これが私のperlコードです

use strict;
use warnings;
use HTML::TableExtract;

my $te = HTML::TableExtract->new();
$te->parse_file('Table_One.html');

open (DATA2, ">TableOutput.txt")
    or die "Can't open file";

foreach my $ts ($te->tables()) {

    foreach my $row ($ts->rows()) {

        my $Final = join('|', @$row );
    print DATA2 "$Final";
    }
}
close (DATA2);

score 1 · Accepted Answer

sub trim(_) { my ($s) = @_; $s =~ s/^\s+//; $s =~ s/\s+\z//; $s }

またはPerl5.14以降では、

sub trim(_) { $_[0] =~ s/^\s+//r =~ s/\s+\z//r }

次に、以下を使用します。

my $Final = join '|', map trim, @$row;

score 1 · Accepted Answer

Mojo::DOM の使用

#!/usr/bin/env perl

use strict;
use warnings;

use Mojo::DOM;
my $dom = Mojo::DOM->new(<<'END');
<!DOCTYPE html>
<html>
<body>

    <h4>One row and three columns:</h4>

    <table border="1">
      <tr>
        <td>
        <p> 100 </p></td>
        <td>
        <p> 200 </p></td>
        <td>
        <p> 300 </p></td>
        </tr>
      <tr>
        <td>
        <p> 100 </p></td>
        <td>
        <p> 200 </p></td>
        <td>
        <p> 300 </p></td>
        </tr>
    </table>
</body>
END

my $rows = $dom->find('table tr');
$rows->each(sub{ 
  print $_->find('td p')
          ->pluck('text')
          ->join('|') . "|\n"
});

score 0 · Accepted Answer

これをやってみてください：

use strict;
use warnings;
use HTML::TableExtract;

my $te = HTML::TableExtract->new();
$te->parse_file('Table_One.html');

open (DATA2, ">TableOutput.txt") or die "Can't open file";
foreach my $ts ($te->tables() )
{
    foreach my $row ($ts->rows() )
    {
        s/(\n|\s)//g for @$row;
        my $Final = join('|', @$row );
        print DATA2 "$Final"; 
    }
}
close (DATA2);

html - Perlを使用してテーブルの内容を抽出する

3 に答える 3

Related

Reference