Apache Solr でアラビア語の PDF を検索しようとしています。問題は、Tika が (右から左) ではなく逆の順序 (左から右) で PDF にインデックスを付けていることです。
ここでこの問題に関する参考文献を見つけました:
- アラビア語の Solr
- Tikaでアラビア語pdfを解析する方法
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arab-documents-drupal-pdf-problem-solution
しかし、Apache solr に最新バージョンの PDFBOX または ICU4J を含める方法がわかりません。私のApache Solr Contrib/extraction/lib
フォルダにはpdfbox-1.6.0.jar
とが含まれていicu4j-4.8.1.1.jar
ます。上記のファイルを削除し、プロジェクト ページから最新のライブラリに置き換えることで、TIKA に強制的に使用させることができますか?
Javaサーブレットの経験がないので説明してください。ありがとう!