科学表記法 (ギリシャ語など) を含むページを解析しようとしていました。これはページです。解析する表記法が他にもあるページがあることに注意してください。
たとえば、次の HTML が含まれています。
<td> human Interleukin 1β </td>
&beta
ギリシャ文字をエンコードします。
ただし、HTML::TableExtractで解析すると、次のようになりました。
human Interleukin 1\x{3b2}
以下のコードで元の HTML をそのままキャプチャする方法、つまり maintaning を作成する方法はありますか1&beta
。
use HTML::TableExtract;
use Data::Dumper;
# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";
my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;