私は HTML:Parser が重要であることを知っており、読み回してみると、正規表現を使用して html を解析しようとするのは、通常、次善の方法であることに気付きましたが、Perl クラスでは現在、正規表現を使用しようとしています (できれば保存された html ドキュメントから文を識別して保存します。最終的には、文の数、単語/文、およびできればページ上の単語の平均長を計算できるようにしたいと考えています。
今のところ、">" に続き ". " の前にあるものを分離しようとしましたが、それが分離するものを確認するだけですが、正規表現を操作してもコードを実行できません。したがって、問題が正規表現にあるのか、他の場所にあるのか、その両方にあるのかはわかりません。どんな助けでも大歓迎です!
#!/usr/bin/perl
#new
use CGI qw(:standard);
print header;
open FILE, "< sample.html ";
$html = join('', <FILE>);
close FILE;
print "<pre>";
###Main Program###
&sentences;
###sentence identifier sub###
sub sentences {
@sentences;
while ($html =~ />[^<]\. /gis) {
push @sentences, $1;
}
#for debugging, comment out when running
print join("\n",@sentences);
}
print "</pre>";