ディレクトリ内のすべての pdf/doc ファイルをスキャンしようとしています。これは正常に機能し、すべてのドキュメントをスキャンできます。
次にやろうとしているのは、検索結果でファイルのファイル名を受け取ることです。ただし、ファイル名は表示されません。いくつかのことを試しましたが、ドキュメントはこれを行う方法についてあまり役に立ちません。
solr ディストリビューションにある solr 構成を使用しています: apache-solr-3.1.0/example/example-DIH/solr/tika/conf
これは私のdataConfigです:
<dataConfig>
<dataSource type="BinFileDataSource" name="bin"/>
<document>
<entity name="f" processor="FileListEntityProcessor" recursive="true"
rootEntity="false" dataSource="null" baseDir="C:/solrtestsmall"
fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)" onError="skip">
<entity name="tika-test" processor="TikaEntityProcessor"
url="${f.fileAbsolutePath}" format="text" dataSource="bin"
onError="skip">
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="text"/>
</entity>
<field column="fileName" name="fileName"/>
</entity>
</document>
</dataConfig>
これを正しく構成する方法と、特定のドキュメントを見つけることができる他の場所に興味があります。