3

ディレクトリ内のすべての pdf/doc ファイルをスキャンしようとしています。これは正常に機能し、すべてのドキュメントをスキャンできます。

次にやろうとしているのは、検索結果でファイルのファイル名を受け取ることです。ただし、ファイル名は表示されません。いくつかのことを試しましたが、ドキュメントはこれを行う方法についてあまり役に立ちません。

solr ディストリビューションにある solr 構成を使用しています: apache-solr-3.1.0/example/example-DIH/solr/tika/conf

これは私のdataConfigです:

<dataConfig>
  <dataSource type="BinFileDataSource" name="bin"/>
  <document>
    <entity name="f" processor="FileListEntityProcessor" recursive="true" 
            rootEntity="false" dataSource="null" baseDir="C:/solrtestsmall"
            fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)" onError="skip">

      <entity name="tika-test" processor="TikaEntityProcessor" 
              url="${f.fileAbsolutePath}" format="text" dataSource="bin" 
              onError="skip">
        <field column="Author" name="author" meta="true"/>
        <field column="title" name="title" meta="true"/>
        <field column="text" name="text"/>
      </entity>

      <field column="fileName" name="fileName"/>
    </entity>
  </document>
</dataConfig>

これを正しく構成する方法と、特定のドキュメントを見つけることができる他の場所に興味があります。

4

1 に答える 1

3

列にfileNameの代わりにfileを使用する必要があります

<field column="file" name="fileName"/>

フィールドセクションのschema.xmlに「fileName」を追加することを忘れないでください。

<field name="fileName" type="string" indexed="true" stored="true" />
于 2011-05-19T08:00:49.340 に答える