2

必要に応じて、doc または docx (Microsoft word) ファイルを html 形式に変換しようとしています。Apache tika

私はうまく動作する次のコードになりますが、結果のhtmlにスタイルシートを追加していません。

 import javax.xml.transform.OutputKeys;
 import java.io.*;
 import javax.xml.transform.stream.StreamResult;
 import javax.xml.transform.sax.SAXTransformerFactory;
 import javax.xml.transform.sax.TransformerHandler;
 import org.apache.tika.metadata.Metadata;
 import org.apache.tika.parser.AutoDetectParser;
 import org.apache.tika.parser.ParseContext;
 import org.apache.tika.detect.DefaultDetector;


public class DocxConvert

  {

  public static void main(String []args) 
   {
      InputStream input=null;

     try
        {
    StringWriter sw = new StringWriter();
            SAXTransformerFactory factory = (SAXTransformerFactory)
            SAXTransformerFactory.newInstance();
            TransformerHandler handler = factory.newTransformerHandler();
            handler.getTransformer().setOutputProperty(OutputKeys.METHOD,"html");
            handler.getTransformer().setOutputProperty(OutputKeys.INDENT,"yes");
            handler.setResult(new StreamResult(sw));
            input = new FileInputStream("f:\\file.doc");
            DefaultDetector detector = new DefaultDetector();
            Metadata metadata = new Metadata();
            org.apache.tika.parser.Parser parser = new AutoDetectParser(detector); 
            parser.parse(input, handler, metadata, new ParseContext());

            System.out.print(sw.toString());

        }
      catch (Exception ex)
   { 
        ex.printStackTrace();
   }
      finally {
              try {
            input.close();
          }
                  catch (IOException e)
                 {
            // TODO Auto-generated catch block
            e.printStackTrace();
          }
       } 

 }

}

出力するスタイル シートを追加/生成する方法はありますか? 親切に助けてください!

4

2 に答える 2

0

Tika のバージョン 1.6 を使用しましたが、問題なく動作しました。これが私が使用した pom 依存関係です。

http://tika.apache.org/download.html

   <dependencies>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-core</artifactId>
            <version>1.6</version>
        </dependency>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-parsers</artifactId>
            <version>1.6</version>
        </dependency>
    </dependencies>
于 2014-11-06T20:23:28.307 に答える