Jsoupを実際にテストしたことはありませんが、class を使用して HTML を XML に変換する必要があるとき、JTidy は非常に役に立ちましたorg.w3c.tidy.Tidy
。これにより、エンティティが自動的に変換されます。
static String str1 = "Um grupo ligado à al-Qaeda assumiu o "
+ "ataque e ameaçou fazer outros.";
public static void main(String[] args) throws Exception {
System.out.println(cleanData(str1));
}
private static String cleanData(String data) throws UnsupportedEncodingException {
Tidy tidy = new Tidy();
tidy.setNumEntities(true); // to num entities
tidy.setPrintBodyOnly(true); // only print the content
tidy.setWraplen(Integer.MAX_VALUE); // wrap
ByteArrayInputStream inputStream = new ByteArrayInputStream(data.getBytes("UTF-8"));
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
tidy.parseDOM(inputStream, outputStream);
return outputStream.toString("UTF-8");
}
必要に応じて のインスタンスを取得することもできますDocument
。
public org.w3c.dom.Document parseDOM(Reader in, Writer out)
public org.w3c.dom.Document parseDOM(InputStream in, OutputStream out)