1

Solr 6.2.1と ExtractingRequestHandler ( Solr 6.2.1には既に含まれています) を使用して、pdf および word ドキュメントのインデックスを作成しています。すべての文書 (pdf および単語) はメタデータ (タイトル、日付、cp_revision、会社など) で索引付けされますが、コンテンツ フィールドは常に空です。

ドキュメントによると、空でないコンテンツ フィールドが必要です。「Tika は、抽出されたすべてのテキストをコンテンツ フィールドに追加します。」

content フィールドが空である理由を知っている人はいますか? この投稿の回答によると、ファイルを非バイナリ モードで開いているためかもしれませんが、バイナリ モードでそれを行うにはどうすればよいですか?

これは私のsolrconfig.xmlファイルです:

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />

...

<requestHandler name="/update/extract"
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="xpath">/xhtml:html/xhtml:body/descendant:node()</str>
    <str name="capture">content</str>
    <str name="fmap.meta">attr_meta_</str>
    <str name="uprefix">attr_</str>
    <str name="lowernames">true</str>
  </lst>
</requestHandler>
4

3 に答える 3

0

examples/filesのfilesの例でインデックスを作成してみてください。リッチテキスト形式を解析するように設計されています。それが機能する場合は、定義の何が問題なのかを理解できます。xpath パラメーターが間違っていて、空のコンテンツだけが返されている可能性があると思われます。

于 2016-10-20T20:51:19.080 に答える