0

今日、単純なhtmlからテキストを抽出するために、libをjericho-html-3.2として使用しようとしました...そして、次のような奇妙なテキスト偽の長さの問題に直面しました:

私がこれとしてhtmlを持っている場合

Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>

...私のRichTextArea は、実際には正しい長さである42getText().length()を返しますが、このhtmlからテキストを抽出しようとすると、

        Source source = new Source(html);
    String text = source.getTextExtractor().toString();

...text.length()リターン44

長さ42のテキストが長さ44のテキストに変わる理由と、それを修正する方法がわかりませんか?

ありがとう

4

2 に答える 2

0

私はそれをより深く掘り下げる必要があり、何らかの理由でジェリコhtmlパーサーが新しい改行をスペースなどに置き換えるため、誤ったテキスト長がhtml改行からなると思います...

今のところ、どのタグがどの文字に置き換えられるかはわかりませんが、私の場合は、このような正規表現を使用してウォークアラウンドを試みただけです(スニペットを参照)。

html=html.replaceAll("<br>","");

Source source = new Source(html);
String text = source.getTextExtractor().toString();

...これで、実際には元のテキストの長さが42として返されます:)

ヒントが1日節約できることを願っています


助けてくれてありがとう

于 2013-08-05T01:04:14.677 に答える