java - HTMLエンティティの視覚的表現に基づいて(または少なくともそれに近い)ページの改行を取得する方法は?

Question

関心のある分野として識別した Web ページのセクションがあります。複数の html タグが含まれている可能性がありますが、複数行のテキストとして解釈するか、少なくともブラウザーによってレンダリングされる方法にできるだけ近づけたいと考えています。

例を挙げましょう。

<div>
<p>Line 1<p>
</div>
<div><p>Line 2<p></div> <div><p>Line 3 <p></div>
<p>Line 4<p></div><br />Line 5

ブラウザでは、次のようにレンダリングされます。

Line 1

Line 2

Line 3

Line 4

Line 5

ある種のライブラリを介して元のhtmlを実行し、次の内容のテキストを取得したい(または閉じる):

Line 1
Line 2
Line 3
Line 4
Line 5

Html に存在する元の改行を回復したくないことに注意してください (この質問が指摘しているように、ブラウザーによってレンダリングされる方法と同様に、html エンティティを改行として解釈したいのです。lib はありますか? Jsoup のTextNode.getWholeText()を使用しましたが、html タグを解析しません。

編集：そこにいるLinuxユーザーの場合、次の結果に似たものが欲しい：

$ lynx -dump file.html > file.txt

score 0 · Accepted Answer

<div> tags and <p>HTML のデフォルトのタグには、周囲にパディングとマージンブロックがあります。そのため、ブラウザがそのままレンダリングしている理由は明らかです。

CSS ファイルを作成し、パディングとマージンの間隔を無効にします。

また、Java がタグ付けされているのはなぜですか? Java サーブレットページでこれを行っている場合は、System.out.printlnステートメントを確認してください。

java - HTMLエンティティの視覚的表現に基づいて(または少なくともそれに近い)ページの改行を取得する方法は?

1 に答える 1

Related

Reference