perlでパラパラで文を分割したい。
現在、Lingua::EN::Sentence モジュールを使用しており、内部コードなしで文を分割できます
> <em>
タグですが、内部にいくつかのタグがあるため、この段落を分割できません
脚本:
use strict; use Lingua::EN::Sentence qw( get_sentences add_acronyms );
$line = "En meteen is er iets. Die voorstelling dat hapert";
my $sentences = get_sentences($line); foreach my $sentence
(@$sentences) {
print $sentence."\n"; }
出力:
En meteen is er iets.
Die voorstelling dat hapert
> <p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then
> <em class="xix"><span class="emph-xix-brl">anna Karenina</span>.
> </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em>
> beter. Het alleen is.</p>
このパラどのように分割?