Solr を使用してジャーナル記事のインデックスを作成しています。すぐに使用できる構成を使用して、ドキュメントのテキストにインデックスを付けましたが、Grobid を使用して著者、タイトル、所属などを引き出すことを検討しています。サービスとして grobid を起動して実行しました。
追加した
<str name="tika.config">/path/to/tika-config.xml</str>
solrconfig.xml の /update/extract の requestHandler に
tika-config は次のようになります。
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>
ドキュメントをインポートしようとすると ClassNotFound 例外が発生しますが、それを修正するためにクラスパスを設定する場所がわかりません。