0


こんにちは皆さん、


誰かが私がこれを理解するのを手伝ってくれるかどうか疑問に思いました。私はsolrを初めて使用し、.pdf、.docxなどのバイナリファイルにインデックスを付けようとしています...問題は、solr構成でファイルにインデックスが付けられますが、クエリを実行すると、ファイル内にあるコンテンツが表示されないことです。 。


デフォルトで提供されているschema.xmlを使用しています。

data-config.xmlには、次の構成を使用しています。

<dataConfig>
 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
                     url="jdbc:mysql://localhost:3306/db" 
                     user="Iam" batchSize="-1"/>
 <document>
     <entity name="data" datasource="mysql" recursive="true"
          query="select id, post, guid from posts'"
          >


        <field column="guid" name="content"/>
     </entity>
 </document>
</dataConfig>


solrconfig.xmlの場合:

 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
  </requestHandler>

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>
 </lst>
  </requestHandler>


誰かが私にいくつかのヒントを教えてくれることを願っています。よろしくお願いします。

4

1 に答える 1

0

DIH を使用している場合は、Tika 統合を使用して、ファイル システムまたは DB に blob フィールドとして保持できるリッチ コンテンツ ドキュメントにインデックスを付けることができます。

Tika と DIH の統合は、TikaEntityProcessorを介して Solr で既に提供されています。

統合 - SOLR-1358
ブロブ処理 - SOLR-1737

于 2013-03-07T03:55:26.877 に答える