HTMLで文の境界を検出する必要があります。そこにはたくさんの文境界検出ソフトウェアがありますが(java.text.BreakIteratorは私が使用しているものです)、それらはすべてプレーンテキストを想定しています。HTMLはそれよりも豊富で、文がどこで途切れるのかについての手がかりが含まれています。
たとえば、<p>, <ul>/<li>, <td>
および他のタグは文の境界をマークするか、少なくとも文がそれらを越えて拡張されない可能性があることを示します。<b>, <i>, <em>, <span>, <a>
そして、他のいくつかのタグが文の中に現れる可能性があります。
文の境界を決定する際に、通常のNLPに加えて、HTMLマークアップを利用するソフトウェアを知っている人はいますか?