PDF ファイルで update/extract を使用しようとすると例外が発生します
私のセットアップは次のとおりです。- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38
solr/admin を参照できます OK
すべての contrib/extract および apache-solr-cell3.5.0.jar ライブラリを tomcat フォルダー webapps/solr/WEB-INF/lib に配置しました。
次を使用して抽出を呼び出しています:-
curl "http://localhost:8080/solr/update/extract?uprefix=attr_&fmap.content=attr_content&commit=true" -F "file=/path/to/my.pdf"
エラーは
java.lang.NoClassDefFoundError: org/apache/tika/mime/MimeTypeException
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:264)
at org.apache.solr.core.SolrResourceLoader.findClass(SolrResourceLoader.java:383)
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:425)
at org.apache.solr.core.SolrCore.createRequestHandler(SolrCore.java:461)
at org.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.getWrappedHandler(RequestHandlers.java:248)
at org.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.handleRequest(RequestHandlers.java:239)
at org.apache.solr.core.SolrCore.execute(SolrCore.java:1372)
ポインタをいただければ幸いです - このエラーが他の場所で発生するように見えるのは、Nutch とキャッシュされた結果の場合のみです。
クエリ文字列と *.doc ファイルで MIME タイプを送信しようとしましたが、同じエラーが発生しました。