html - HTML::TableExtract を有効にして特殊文字を認識する方法

Question

科学表記法 (ギリシャ語など) を含むページを解析しようとしていました。これはページです。解析する表記法が他にもあるページがあることに注意してください。

たとえば、次の HTML が含まれています。

<td> human Interleukin 1&beta;        </td>

&betaギリシャ文字をエンコードします。

ただし、HTML::TableExtractで解析すると、次のようになりました。

human Interleukin 1\x{3b2}

以下のコードで元の HTML をそのままキャプチャする方法、つまり maintaning を作成する方法はありますか1&beta。

use HTML::TableExtract;
use Data::Dumper;

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";

my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;

score 3 · Accepted Answer

戻らなかった

human Interleukin 1\x{3b2}

戻ってきた

human Interleukin 1β

ダンパーは単にそれを Perl 文字列リテラルとして出力します

"human Interleukin 1\x{3b2}"

keep_html => 1とにかく、それが表すテキストではなく生の HTML が必要な場合は、コンストラクターに渡すことでうまくいくと思います。

html - HTML::TableExtract を有効にして特殊文字を認識する方法

1 に答える 1

Related

Reference