pdf - 空のコンテンツフィールドを与える Solr ExtractingRequestHandler

Question

Solr 6.2.1と ExtractingRequestHandler ( Solr 6.2.1には既に含まれています) を使用して、pdf および word ドキュメントのインデックスを作成しています。すべての文書 (pdf および単語) はメタデータ (タイトル、日付、cp_revision、会社など) で索引付けされますが、コンテンツフィールドは常に空です。

ドキュメントによると、空でないコンテンツフィールドが必要です。「Tika は、抽出されたすべてのテキストをコンテンツフィールドに追加します。」

content フィールドが空である理由を知っている人はいますか? この投稿の回答によると、ファイルを非バイナリモードで開いているためかもしれませんが、バイナリモードでそれを行うにはどうすればよいですか?

これは私のsolrconfig.xmlファイルです:

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />

...

<requestHandler name="/update/extract"
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="xpath">/xhtml:html/xhtml:body/descendant:node()</str>
    <str name="capture">content</str>
    <str name="fmap.meta">attr_meta_</str>
    <str name="uprefix">attr_</str>
    <str name="lowernames">true</str>
  </lst>
</requestHandler>

score 0 · Accepted Answer

examples/filesのfilesの例でインデックスを作成してみてください。リッチテキスト形式を解析するように設計されています。それが機能する場合は、定義の何が問題なのかを理解できます。xpath パラメーターが間違っていて、空のコンテンツだけが返されている可能性があると思われます。

pdf - 空のコンテンツ フィールドを与える Solr ExtractingRequestHandler

3 に答える 3

Related

Reference

pdf - 空のコンテンツフィールドを与える Solr ExtractingRequestHandler