1

Tikaなどのファイル形式のテキストを抽出するために使用したいと考えて.docいます.ppt
現在は に依存していtika-app-1.2.jarますが、この jar は実行可能であるため、この jar に依存するのは得策ではないと思います。さらに、ファイルを解析すると、次の.pptランタイム例外が発生します。

org.apache.tika.exception.TikaException: Unexpected RuntimeException from  org.apache.tika.parser.microsoft.OfficeParser@5de82b72
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
    ...

この問題を詳しく調べたところ、この問題はapache-poiwhich が に埋め込まれていることが原因であることがわかりましたtika-app

私の質問は、ティカのどの瓶に依存しなければならないかということです?

  • ティカ
  • ティカコア
  • tika バンドル
  • tika-親
  • tika-app
4

1 に答える 1

3

http://tika.apache.org/1.3/gettingstarted.html

tika-parsers の依存関係が必要だと思います。ティカのサイトより。

Tika を使用してドキュメントを解析する場合 (単にドキュメントの種類などを検出するのではなく)、代わりに tika-parsers に依存する必要があります。

<dependency>
  <groupId>org.apache.tika</groupId>
  <artifactId>tika-parsers</artifactId>
  <version>1.3</version>
</dependency>

補足として、最初にそのプロジェクトのドキュメントを参照せずに、Maven Central から直接依存関係を取得しようとすることは決してありません。Tika で見られるように依存関係を分割することは、IMO です。これは、単一のモノリシック jar を提供する代わりにそれを行う新しい標準的な方法です。これにより、それらのプロジェクトを含む人々は、依存関係を含めるときに自分のプロジェクトにプルするものをより細かく制御できます。 .

于 2013-04-21T15:17:36.193 に答える