関心のある分野として識別した Web ページのセクションがあります。複数の html タグが含まれている可能性がありますが、複数行のテキストとして解釈するか、少なくともブラウザーによってレンダリングされる方法にできるだけ近づけたいと考えています。
例を挙げましょう。
<div>
<p>Line 1<p>
</div>
<div><p>Line 2<p></div> <div><p>Line 3 <p></div>
<p>Line 4<p></div><br />Line 5
ブラウザでは、次のようにレンダリングされます。
Line 1
Line 2
Line 3
Line 4
Line 5
ある種のライブラリを介して元のhtmlを実行し、次の内容のテキストを取得したい(または閉じる):
Line 1
Line 2
Line 3
Line 4
Line 5
Html に存在する元の改行を回復したくないことに注意してください (この質問が指摘しているように、ブラウザーによってレンダリングされる方法と同様に、html エンティティを改行として解釈したいのです。lib はありますか? Jsoup のTextNode.getWholeText()を使用しましたが、html タグを解析しません。
編集:そこにいるLinuxユーザーの場合、次の結果に似たものが欲しい:
$ lynx -dump file.html > file.txt