6

Apache Solr でアラビア語の PDF を検索しようとしています。問題は、Tika が (右から左) ではなく逆の順序 (左から右) で PDF にインデックスを付けていることです。

ここでこの問題に関する参考文献を見つけました:

しかし、Apache solr に最新バージョンの PDFBOX または ICU4J を含める方法がわかりません。私のApache Solr Contrib/extraction/libフォルダにはpdfbox-1.6.0.jarとが含まれていicu4j-4.8.1.1.jarます。上記のファイルを削除し、プロジェクト ページから最新のライブラリに置き換えることで、TIKA に強制的に使用させることができますか?

Javaサーブレットの経験がないので説明してください。ありがとう!

4

1 に答える 1

0

質問のタグから、Drupal を使用して Apache Solr とやり取りしていると思います。Tika は、バイナリ ドキュメントを送信するときに Solr 内から実行することも、ドキュメントを Solr に送信する前に使用することもできます。Drupal Solr Attachments モジュールには、その「Tika (ローカル Java アプリケーション)」の設定があります。あなたが提供した2番目のリンクでは、Solr Attachmentsモジュールにパッチを適用して、Tikaの代わりにPDFBoxを使用して、Solrに送信する前にバイナリファイルを解析しました。Drupal を使用していない場合は、同様のアプローチを試す必要があります。

于 2013-02-28T18:57:37.753 に答える