java - Apache Tika を使用した solr での PDF ファイルの ContentExtraction

Question

次のチュートリアル http://wiki.apache.org/solr/ExtractingRequestHandlerを使用して、solr で PDF ファイルのインデックスを作成しようとしていますが、コマンドを実行するたびに

java -jar post.jar *.pdf

org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error PDF を solr サーバーにインデックス付けするのを手伝ってください。tika 以外に役立つ統合はありますか。

score 3 · Accepted Answer

Post.jar は、Solr にファイルをアップロードする単なるユーティリティです。
Solr は Extract ハンドラーを使用するため、URL として指定する必要があります。例えば

java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

暗号化されたファイルについては、リンク
を確認してくださいパスワード保護されたファイルについては、リンクを確認してください

score 0 · Accepted Answer

ここには明らかにエンコードの問題があります。

数か月前にこのようなことをしたことを覚えています。独自の Java コードを記述できれば、かなり簡単です。これらはほとんど書くのが簡単で、魔法のように機能します!

2 に答える 2