1

科学表記法 (ギリシャ語など) を含むページを解析しようとしていました。これはページです。解析する表記法が他にもあるページがあることに注意してください。

たとえば、次の HTML が含まれています。

<td> human Interleukin 1&beta;        </td>

&betaギリシャ文字をエンコードします。

ただし、HTML::TableExtractで解析すると、次のようになりました。

human Interleukin 1\x{3b2} 

以下のコードで元の HTML をそのままキャプチャする方法、つまり maintaning を作成する方法はありますか1&beta

use HTML::TableExtract;
use Data::Dumper;

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";

my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;
4

1 に答える 1

3

戻らなかった

human Interleukin 1\x{3b2} 

戻ってきた

human Interleukin 1β

ダンパーは単にそれを Perl 文字列リテラルとして出力します

"human Interleukin 1\x{3b2}"

keep_html => 1とにかく、それが表すテキストではなく生の HTML が必要な場合は、コンストラクターに渡すことでうまくいくと思います。

于 2013-01-22T05:25:41.787 に答える