Tikaなどのファイル形式のテキストを抽出するために使用したいと考えて.docいます.ppt。
現在は に依存していtika-app-1.2.jarますが、この jar は実行可能であるため、この jar に依存するのは得策ではないと思います。さらに、ファイルを解析すると、次の.pptランタイム例外が発生します。
org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
...
この問題を詳しく調べたところ、この問題はapache-poiwhich が に埋め込まれていることが原因であることがわかりましたtika-app。
私の質問は、ティカのどの瓶に依存しなければならないかということです?
- ティカ
- ティカコア
- tika バンドル
- tika-親
- tika-app