java - CSSスタイルと

ApacheTikaを使用した解析中にタグが無視された

翻译自：https://stackoverflow.com/questions/10894406 2012-06-05T09:01:25.040

517 次

AutoDetectParserを使用してPDFまたはWord文書を解析している間、「li」、「ul」タグは「p」タグとして変換されます。PDFまたはWordドキュメント用にある正確なHTMLコンテンツが必要です。

私は以下のようにいくつかの方法で試しました：

ToHTMLContentHandler textHandler = new ToHTMLContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
context.set(HtmlMapper.class, new IdentityHtmlMapper());
parser.parse(in, textHandler, metadata, context);

SAXTransformerFactory factory = (SAXTransformerFactory)SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-8");
handler.setResult(new StreamResult(writer));
System.out.println(handler.toString());
return handler;

ただし、「li」タグはクラスの「p」タグに置き換えられますが、解析されたHTML出力にはCSSスタイルは表示されません。

どんな助けでも大歓迎です。

java - CSSスタイルと ApacheTikaを使用した解析中にタグが無視された

0 に答える 0

Related

Reference

java - CSSスタイルと

ApacheTikaを使用した解析中にタグが無視された