3

HTMLで文の境界を検出する必要があります。そこにはたくさんの文境界検出ソフトウェアがありますが(java.text.BreakIteratorは私が使用しているものです)、それらはすべてプレーンテキストを想定しています。HTMLはそれよりも豊富で、文がどこで途切れるのかについての手がかりが含まれています。

たとえば、<p>, <ul>/<li>, <td>および他のタグは文の境界をマークするか、少なくとも文がそれらを越えて拡張されない可能性があることを示します。<b>, <i>, <em>, <span>, <a>そして、他のいくつかのタグが文の中に現れる可能性があります。

文の境界を決定する際に、通常のNLPに加えて、HTMLマークアップを利用するソフトウェアを知っている人はいますか?

4

1 に答える 1

1

<i>私が実装したソリューションは、1。インラインタグ( 、、、<b>など)を除くすべてのhtmlタグでドキュメントを個別のブロックに分割する<span>2.各ブロックからインラインタグを削除する3.従来の方法を使用して各ブロック内の文を探す。

于 2012-10-03T02:24:21.457 に答える