0

Eclipse Juno SR1 および JRE 1.7.0_25 で Nutch 2.2.1 を実行しています。

PARSE ステップが次のエラーで失敗しています:

2013-08-15 19:35:26,555 ERROR tika.TikaParser - Can't retrieve Tika parser for mime-type application/pdf
2013-08-15 19:35:26,557 WARN  parse.ParseUtil - Unable to successfully parse content

空のイテレータを取得するため、このエラーは TikaConfig.java から発生しているようです:

Iterator<Parser> iterator = ServiceRegistry.lookupProviders(
    Parser.class, this.getClass().getClassLoader());

CYGWIN からの同じ PARSE 呼び出しが成功し、サービス レジストリからすべての PARSERS を取得します。したがって、おそらく解決策は、サービスレジストリに関連するEclipseの構成です。

Nutch-Eclipse は、nutch-site.xml、parse-plugins.xml について適切に構成されています。

これを解決するためのアイデアに感謝します。

4

1 に答える 1