Tika
などのファイル形式のテキストを抽出するために使用したいと考えて.doc
います.ppt
。
現在は に依存していtika-app-1.2.jar
ますが、この jar は実行可能であるため、この jar に依存するのは得策ではないと思います。さらに、ファイルを解析すると、次の.ppt
ランタイム例外が発生します。
org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.microsoft.OfficeParser@5de82b72
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
...
この問題を詳しく調べたところ、この問題はapache-poi
which が に埋め込まれていることが原因であることがわかりましたtika-app
。
私の質問は、ティカのどの瓶に依存しなければならないかということです?
- ティカ
- ティカコア
- tika バンドル
- tika-親
- tika-app