0

次のコードでJerichoを使用してプレーンテキストを解析しようとしています:

    public static String getPlainText(String html) {
    Source htmlSource = new Source(html);
    Segment htmlSeg = new Segment(htmlSource, 0, html.length());
    Renderer htmlRend = new Renderer(htmlSeg);
   // System.out.println(htmlRend.toString());
    return htmlRend.toString();
}

ただし、次の html フラグメントの場合:

    Phone (808) 845-0000<br />
    Fax (808) 842-3616
    <a href="mailto:helpdesk@progressive-hi.com">
    helpdesk@progressive-hi.com</a>         

私は出力を得ています:

電話 (808) 845-0000 ファックス (808) 842-3616helpdesk@progressive-hi.com

今私が望んでいたのは、タグ内のすべてのテキストを互いに分離することです。つまり、ファックスと電子メールを互いに分離する必要があります。これを達成する方法はありますか?

ありがとう

4

1 に答える 1

1

問題が解決しました。

Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());

http://jericho.htmlparser.net/samples/console/src/ExtractText.java

于 2012-12-23T08:51:07.523 に答える