Solr 6.2.1と ExtractingRequestHandler ( Solr 6.2.1には既に含まれています) を使用して、pdf および word ドキュメントのインデックスを作成しています。すべての文書 (pdf および単語) はメタデータ (タイトル、日付、cp_revision、会社など) で索引付けされますが、コンテンツ フィールドは常に空です。
ドキュメントによると、空でないコンテンツ フィールドが必要です。「Tika は、抽出されたすべてのテキストをコンテンツ フィールドに追加します。」
content フィールドが空である理由を知っている人はいますか? この投稿の回答によると、ファイルを非バイナリ モードで開いているためかもしれませんが、バイナリ モードでそれを行うにはどうすればよいですか?
これは私のsolrconfig.xmlファイルです:
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />
...
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="xpath">/xhtml:html/xhtml:body/descendant:node()</str>
<str name="capture">content</str>
<str name="fmap.meta">attr_meta_</str>
<str name="uprefix">attr_</str>
<str name="lowernames">true</str>
</lst>
</requestHandler>