1

次のチュートリアル http://wiki.apache.org/solr/ExtractingRequestHandlerを使用して、solr で PDF ファイルのインデックスを作成しようとしています が、コマンドを実行するたびに

java -jar post.jar *.pdf

org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error PDF を solr サーバーにインデックス付けするのを手伝ってください。tika 以外に役立つ統合はありますか。

4

2 に答える 2

3

Post.jar は、Solr にファイルをアップロードする単なるユーティリティです。
Solr は Extract ハンドラーを使用するため、URL として指定する必要があります。例えば

java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

暗号化されたファイルについては、リンク
を確認して ください パスワード保護されたファイルについては、リンクを確認してください

于 2013-09-12T18:20:32.250 に答える
0

ここには明らかにエンコードの問題があります。

数か月前にこのようなことをしたことを覚えています。独自の Java コードを記述できれば、かなり簡単です。これらはほとんど書くのが簡単で、魔法のように機能します!

于 2013-09-12T15:42:35.927 に答える