1 つの列がインデックスを作成したい PDF ドキュメントのファイル名であるデータベースを Solr にインデックスを作成させようとしています。私の構成は次のようになります。
<dataConfig>
<dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly="true"/>
<dataSource name="ds-file" type="BinFileDataSource"/>
<document name="documents">
<entity name="document" dataSource="ds-db" query="select * from documents">
<entity processor="TikaEntityProcessor" url="/some/path/${document.filename}" dataSource="ds-file" format="text">
<field column="text" />
</entity>
</entity>
</document>
</dataConfig>
トランクからSolrを使用しています(先週の時点で)。インポート プロセスはエラーなしで完了し、データベースから列を取得しますが、PDF ファイルのコンテンツは取得しません。PDF ファイルにアクセスしようとしているのは間違いありません。間違ったパス名を指定すると、問題が発生します。ただし、約 40 ミリ秒で完了するため、PDF のインデックス作成を試みているようには見えませんが、 を介して PDF をインポートすると、ExtractingRequestHandler
インデックス作成に約 11 秒かかります。
example-DIH で tika の例も試しましたが、それも何もインデックス化されていないようです。私は何か間違ったことをしていますか、それともこれはまだ機能していませんか?
OSX 10.6.3 で Java 1.6.0_20 を実行しています。
(私はすでにこれを solr-user メーリング リストに投稿しましたが、回答が得られなかったことに注意してください。)