このようにフォーマットされたhtmlドキュメントがあります:
<p>
some plain text <em>some emphatized text</em>, <strong> some strong text</strong>
</p>
<p>
just some plain text
</p>
<p>
<strong>strong text </p> followed by plain, <a>with a link at the end!</a>
</p>
テキストを抽出したいと思います。dom のようなパーサーを使用すると、各段落を抽出できます
、しかし問題は内部にあります。内部タグからもテキストを抽出し、結果の文字列を同じ順序で取得する必要があります。上記の例の最初の段落では、抽出したい:
some plain text some emphatized text, some strong text
そして、この目的のためには、sax のようなパーサーが dom よりも優れていると思います。内部タグの番号またはシーケンスを知ることができないためです。段落には、異なるタイプのゼロまたは複数の内部タグを含めることができます。