解析したいドキュメントがあり、それにはhtmlが含まれています。変換したいのですhtml
がplaintext
、書式設定があります。
抽出例
<p>My simple paragragh</p>
<p>My paragragh with <a>Link</a></p>
<p>My paragragh with an <img/></p>
単純な例を実行することで非常に簡単に実行できます(おそらく効率的ではありません)
StringBuilder sb = new StringBuilder();
for(Element element : doc.getAllElements()){
if(element.tag().getName().equals("p")){
sb.append(element.text());
sb.append("\n\n");
}
}
インライン要素の出力を正しい場所に挿入することは可能ですか (どうすればよいですか)。例:
<p>My paragragh with <a>Link</a> in the middle</p>
次のようになります。
My paragragh with (Location: http://mylink.com) in the middle