java - jericho-html - テキスト抽出と不正確なテキスト長

Question

今日、単純なhtmlからテキストを抽出するために、libをjericho-html-3.2として使用しようとしました...そして、次のような奇妙なテキスト偽の長さの問題に直面しました:

私がこれとしてhtmlを持っている場合

Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>

...私のRichTextArea は、実際には正しい長さである42getText().length()を返しますが、このhtmlからテキストを抽出しようとすると、

        Source source = new Source(html);
    String text = source.getTextExtractor().toString();

...text.length()リターン44

長さ42のテキストが長さ44のテキストに変わる理由と、それを修正する方法がわかりませんか?

ありがとう

score 0 · Accepted Answer

私はそれをより深く掘り下げる必要があり、何らかの理由でジェリコhtmlパーサーが新しい改行をスペースなどに置き換えるため、誤ったテキスト長がhtml改行からなると思います...

今のところ、どのタグがどの文字に置き換えられるかはわかりませんが、私の場合は、このような正規表現を使用してウォークアラウンドを試みただけです(スニペットを参照)。

html=html.replaceAll("<br>","");

Source source = new Source(html);
String text = source.getTextExtractor().toString();

...これで、実際には元のテキストの長さが42として返されます:)

ヒントが1日節約できることを願っています

助けてくれてありがとう

2 に答える 2