1

段落や文をマークするために、HTML ドキュメントに CSS ID を挿入する必要があります。HTML の書式設定にはさまざまな方法があるため、それらを解析するための一貫した方法を見つけるのは非常に困難です。たとえば、いくつかの安っぽい html の使用<table>、他の使用<P><div>他のいくつかの使用 など。組み合わせを使用するものもあります。

入力:

<p> This is a sentence, with stuff.  Mr. John doe was walking down the street. Mrs. Daisy knows how to drive but does not drive.  The car is fast, but is an ugly color.  This is an example of a paragraph. </P>

<br>

<div> However, sometimes, paragraphs on HTML pages are not tagged as with a consistent format.  This makes it hard to identify paragraphs and sentences.  I need a solution to tag them with CSS id's</div>

出力

 <p><span id="paragraph1"> <span id="sentence1">This is a sentence, with stuff.</span><span id="sentence2">  Mr. John doe was walking down the street. </span><span id="sent3"> Mrs. Daisy knows how to drive but does not drive. </span> <span id="sent4"> The car is fast, but is an ugly color.</span>  <span id="sent4"> This is an example of a paragraph.</span> </span> </P>

</br>

<div><span id="paragraph2"> <span id="sent5">However, sometimes, paragraphs on HTML pages are not tagged as with a consistent format.</span><span id="sent6">  This makes it hard to identify paragraphs and sentences.</span> <span id="sent7"> I need a solution to tag them with CSS id's</span></span></div>

1) HTML の段落を識別してタグ付けするために使用できるソリューションはどれですか。

2) OpenNLP は文の識別に優れていますが、html ストリッパーは見当たりませんでした。

Tika を使用して HTML を削除し、それを OpenNLP にフィードして文を識別できると考えていましたが、書式設定がすべて失われ、タグを元の HTML に戻す場所がわかりません。

4

0 に答える 0