4

jsoup を使用して HTML ファイルを解析すると、HTML ファイル内の複数行 ( < br />) のテキストが、改行 ( ) なしで 1 行として表示されます\n。複数行の HTML ドキュメントを複数行の文字列として解析するにはどうすればよいですか??

私は方法を使用しています:Element.text()

例えば:

HTMLには、HtMlファイルで複数行に正しく表示されるCコードが含まれていますが、テキストデータを取得すると、すべてのデータが改行文字なしで1行に表示されます。

4

2 に答える 2

3

<br />次のように、別のものに置き換えて元に戻します。

Document doc = Jsoup.connect("http://www.ejemplo.html").get(); //Here included the <br>'s
String temp = doc.html().replace("<br />", "$$$"); //$$$ instead <br>
doc = Jsoup.parse(temp); //Parse again

String text = doc.body().text().replace("$$$", "\n").toString()); //example
//I get back the new lines (\n)
于 2012-12-06T00:25:35.420 に答える
0

すべての(または空白) を空白に置き換えるtext()Element (およびTextNode) 呼び出しのメソッド。残念ながら、コードを操作せずにこれをオフにするメカニズムはありません。appendWhitespaceIfBr(...)<br />

<br />しかし、すべてのタグを の新しいサブクラスに置き換えてみてくださいNode

于 2012-11-20T20:43:42.710 に答える