任意の Web サイトを取得し、その Web サイトからすべてのテキストのチャンクを取得する必要があります。
私はこれを「段落の曖昧さ回避」と呼んでいます (Wikipedia の「文の曖昧さ回避」を参照してください)。
これらのチャンク自体に他の HTML のようなものが含まれているかどうか、または段落テキストを抽出した後にこれらを取り除くことができるかどうかは気にしません。
また、段落を区別する必要があります。これは段落 1 で、これは段落 2 などです。
ほとんどの段落は通常、
鬼ごっこ。しかし、これは必ずしもそうではありません。テキストは、次のものにも含めることができます。
<div>
<span>
<td>
<li>
テキストのブロックを含む可能性のある他の HTML 要素はありますか?
「白い言葉」を探してその境界を見つけるなど、ランダムな Web ページからテキスト ブロックを抽出する他の方法はありますか?
前もって感謝します
ジェフ