HTML ページを解析してテキスト コンテンツを抽出するためのリソースが多数あります。Jsoup がその例です。私の場合、各文が発生する html タグでタグ付けされたテキスト コンテンツを抽出したいと考えています。たとえば、このページを見てください
<html>
<head><title>Test Page</title>
<body>
<h1>This is a test page</h1>
<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages.
</body>
</html>
出力は次のようになると予想しています。
<h1>This is a test page</h1>
<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages.
つまり、ページのテキスト コンテンツ内に特定の html タグを含めたいと考えています。