Perl で Web クローラーを開発しています。ページからコンテンツを抽出し、パターン マッチを実行してコンテンツの言語をチェックします。コンテンツの照合には Unicode 値が使用されます。
抽出されたコンテンツに複数の言語のテキストが含まれている場合があります。ここで使用したパターン マッチではすべてのテキストが出力されますが、パターンで指定された Unicode 値に一致するテキストのみを出力したいと考えています。
my $uu = LWP::UserAgent->new('Mozilla 1.3');
my $extractorr = HTML::ContentExtractor->new();
# create response object to get the url
my $responsee = $uu->get($url);
my $contentss = $responsee->decoded_content();
$range = "([\x{0C00}-\x{0C7F}]+)"; # match particular language
if ($contentss =~ m/$range/) {
$extractorr->extract($url, $contentss);
print "$url\n";
binmode(STDOUT, ":utf8");
print $extractorr->as_text;
}