1

solr用に次の設定ファイルがあります。

  <requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <!-- All the main content goes into "text"... if you need to return
           the extracted text or do highlighting, use a stored field. -->
      <str name="lowernames">true</str>
      <str name="fmap.content">content</str>
      <str name="fmap.application_name">type</str>
      <str name="fmap.content_type">mime</str>
      <str name="fmap.stream_size">size</str>
      <str name="uprefix">ignored_</str>
      <str name="captureAttr">false</str>
    </lst>
  </requestHandler>

これが私のスキーマです:

   <field name="id" type="string" indexed="true" stored="true" required="true" /> 
   <field name="access_type" type="string" indexed="true" stored="false"/>
   <field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
   <field name="title" type="string" indexed="true" stored="true" multiValued="true" />
   <field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="content" type="text_en_splitting" indexed="true" stored="true"/>
   <field name="created" type="date" indexed="true" stored="true"/>
   <field name="createdby" type="string" indexed="true" stored="true"/>
   <field name="modified" type="date" indexed="true" stored="true"/>
   <field name="modifiedby" type="string" indexed="true" stored="true"/>
   <field name="source" type="string" indexed="true" stored="true" />
   <field name="version" type="string" indexed="true" stored="true" />
   <field name="resourcelink" type="string" indexed="true" stored="true" />
   <field name="downloadlink" type="string" indexed="true" stored="true" />

   <field name="type" type="string" indexed="true" stored="true" />
   <field name="mime" type="string" indexed="true" stored="true" />
   <field name="size" type="string" indexed="true" stored="true" />

自分を設定したいtitle。しかし、Tikaは独自に設定し続けますtitle(そのため、一時的に設定します)。これは、やmultiValued="true"のようなものを手動でマップする必要があるため、奇妙に感じます。stream_sizecontent_type

この問題に対してどのような解決策がありますか?

title次のように、Tikaに割り当てたものを上書きしてもらいたいです。

私は3つのドキュメントを持っていますが、そのうちの1つは、Tikaがを抽出しませんtitle。この場合、私は自分のタイトルを渡して設定しますliteral.title。Tikaがを抽出するときは、title渡したものをオーバーライドしますliteral.title。これは可能ですか?

4

2 に答える 2

1

私はしばらく前に同じ問題に取り組んでいましたが、壁にもぶつかりました:( Tikaに「タイトル」を取得させ、literal.other_title_like_fieldを使用して適切なタイトルを保存します。これは最善の解決策ではありませんが、うまくいきました。

于 2011-12-26T19:26:54.290 に答える
0

まだこの問題に苦しんでいる人のために、私は追加することによってそれを解決しました

<str name="fmap.title">ignored_</str>

私のExtractingRequestHandlerのデフォルトでは。

于 2017-05-19T07:16:56.920 に答える