一致をキャプチャするためにJavaの正規表現のフレーバーを使用するサードパーティのアプリを使用しています。残念ながら、アプリでは許可されていないため、正規表現検索を実行する前にhtmlドキュメントの先頭に何かを追加するJavaコードを実装することはできません。従来の方法ではなく、使用する価値のある機能がたくさんあります。そうでない場合は、そのようにします。
このHTMLドキュメントには文字通りタグのみが含まれていますが、新しい段落を指定するために使用されるタグ<br>
に関係なく、各文の後に常にスペースがあります。<br>
htmlタグがあるため、これから始めましたが、気付く前に最初の単語をキャプチャしていませんでした。
[\s](.*?)[.!?]\s
その後、単語の境界で試してみましたが、うまくいきませんでしたが、一致するたびに「br>」を取得し始めました。
[\b](.*?)[.!?]\s
このようにして、空白や単語の境界から句読点まで、文の後に空白が続くすべてをキャプチャする必要があります。
これは、すべての異なるドキュメントで毎回ドキュメントの最初の単語を削除することを除いて、ドキュメント全体の1つおきの文に対して機能します。おそらく最初の単語の前に何も存在しないためですか?
これが最初からのサンプルテキストです:
The troll who who lived under the bridge was quite sad. He couldn't help from
trolling without making others mad. He had no friends because of this, but he
could never stop. It made his constantly feel alone. No other soul would comfort
him. <br>
これは常に次のような文を返します。
troll who who lived under the bridge was quite sad
He couldn't help from trolling without making others mad
He had no friends because of this, but he could never stop
etc...
ご覧のとおり、最初の文の最初の文が欠落しています。
最初の単語の前には何も存在しないため、常に最初の単語が削除されます(少なくともこれは私が想定していることです)。
これを機能させるにはどうすればよいですか?