次のコードでJerichoを使用してプレーンテキストを解析しようとしています:
public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}
ただし、次の html フラグメントの場合:
Phone (808) 845-0000<br />
Fax (808) 842-3616
<a href="mailto:helpdesk@progressive-hi.com">
helpdesk@progressive-hi.com</a>
私は出力を得ています:
電話 (808) 845-0000 ファックス (808) 842-3616helpdesk@progressive-hi.com
今私が望んでいたのは、タグ内のすべてのテキストを互いに分離することです。つまり、ファックスと電子メールを互いに分離する必要があります。これを達成する方法はありますか?
ありがとう