今日、単純なhtmlからテキストを抽出するために、libをjericho-html-3.2として使用しようとしました...そして、次のような奇妙なテキスト偽の長さの問題に直面しました:
私がこれとしてhtmlを持っている場合
Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>
...私のRichTextArea は、実際には正しい長さである42getText().length()
を返しますが、このhtmlからテキストを抽出しようとすると、
Source source = new Source(html);
String text = source.getTextExtractor().toString();
...text.length()
リターン44
長さ42のテキストが長さ44のテキストに変わる理由と、それを修正する方法がわかりませんか?
ありがとう