次のようなhtmlフラグメントがあるとしましょう:
<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
そこから抽出したいのは次のとおりです。
foo bar foobar baz
私の質問は次のとおりです。HTMLからすべてのラッピングタグを取り除き、HTMLと同じ順序でテキストのみを取得するにはどうすればよいですか? タイトルからわかるように、解析には jsoup を使用したいと考えています。
アクセント付きの html の例 (「á」文字に注意してください):
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
私が欲しいもの:
Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
この html は静的ではありません。一般に、一般的な html フラグメントのすべてのテキストをデコードされた人間が読める形式、幅の改行にしたいだけです。