java - Apache Tika で特殊文字をデコードする方法

翻译自：https://stackoverflow.com/questions/18475732 2013-08-27T21:24:46.173

620 次

Apache Tikaを使用して、一部の MS Word ドキュメントを HTML (文字列) に解析しています。問題は、一部のドキュメントに特殊文字 (数学演算子など) が含まれていることです。それを解決する方法はありますか？ご協力ありがとう御座います。

入力： ここに画像の説明を入力

出力

ここに画像の説明を入力

ソースコード

SAXTransformerFactory.newInstance();
TransformerHandler handler = null;

try {
  handler = factory.newTransformerHandler();
} catch (TransformerConfigurationException e) {
   logger.warn(String.format("SAX Processing is not available: ", e));
   return;
}

handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");
handler.setResult(new StreamResult(output)); // StringWriter output

java - Apache Tika で特殊文字をデコードする方法

0 に答える 0

Related

Reference