Eclipse Juno SR1 および JRE 1.7.0_25 で Nutch 2.2.1 を実行しています。
PARSE ステップが次のエラーで失敗しています:
2013-08-15 19:35:26,555 ERROR tika.TikaParser - Can't retrieve Tika parser for mime-type application/pdf
2013-08-15 19:35:26,557 WARN parse.ParseUtil - Unable to successfully parse content
空のイテレータを取得するため、このエラーは TikaConfig.java から発生しているようです:
Iterator<Parser> iterator = ServiceRegistry.lookupProviders(
Parser.class, this.getClass().getClassLoader());
CYGWIN からの同じ PARSE 呼び出しが成功し、サービス レジストリからすべての PARSERS を取得します。したがって、おそらく解決策は、サービスレジストリに関連するEclipseの構成です。
Nutch-Eclipse は、nutch-site.xml、parse-plugins.xml について適切に構成されています。
これを解決するためのアイデアに感謝します。