いくつかの画像を含む DOC ファイルがあります。画像付きのHTMLに変換する方法は?
この例を使用しようとしました: Convert Word doc to HTML programmatically in Java
public class Converter {
...
private File docFile, htmlFile;
try {
FileInputStream fos = new FileInputStream(docFile.getAbsolutePath());
HWPFDocument doc = new HWPFDocument(fos);
Document newDoc = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDoc) ;
wordToHtmlConverter.processDocument(doc);
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty(OutputKeys.INDENT, "yes");
transformer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
transformer.setOutputProperty(OutputKeys.METHOD, "html");
transformer.transform(
new DOMSource(wordToHtmlConverter.getDocument()),
new StreamResult(stringWriter)
);
String html = stringWriter.toString();
try {
BufferedWriter out = new BufferedWriter(
new OutputStreamWriter(new FileOutputStream(htmlFile), "UTF-8")
);
out.write(html);
out.close();
} catch (IOException e) {
e.printStackTrace();
}
JEditorPane jEditorPane = new JEditorPane();
jEditorPane.setContentType("text/html");
jEditorPane.setEditable(false);
jEditorPane.setPage(htmlFile.toURI().toURL());
JScrollPane jScrollPane = new JScrollPane(jEditorPane);
JFrame jFrame = new JFrame("display html file");
jFrame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
jFrame.getContentPane().add(jScrollPane);
jFrame.setSize(512, 342);
jFrame.setVisible(true);
} catch(Exception e) {
e.printStackTrace();
}
...
}
しかし、イメージは失われます。
クラスのドキュメントにWordToHtmlConverter
は、次のように記載されています。
...この実装では、画像やそれらへのリンクは作成されません。これはメソッドをオーバーライドすることで変更できます
AbstractWordConverter.processImage(Element, boolean, Picture)
。
DOC を画像付きの HTML に変換するには?