solr - grobid と tika および solr の統合

翻译自：https://stackoverflow.com/questions/37028585 2016-05-04T13:00:06.007

180 次

Solr を使用してジャーナル記事のインデックスを作成しています。すぐに使用できる構成を使用して、ドキュメントのテキストにインデックスを付けましたが、Grobid を使用して著者、タイトル、所属などを引き出すことを検討しています。サービスとして grobid を起動して実行しました。

追加した

<str name="tika.config">/path/to/tika-config.xml</str>

solrconfig.xml の /update/extract の requestHandler に

tika-config は次のようになります。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
  <parsers>
    <parser class="org.apache.tika.parser.journal.JournalParser">
      <mime>application/pdf</mime>
    </parser>
  </parsers>
</properties>

ドキュメントをインポートしようとすると ClassNotFound 例外が発生しますが、それを修正するためにクラスパスを設定する場所がわかりません。

solr - grobid と tika および solr の統合

1 に答える 1

Related

Reference