3

1 つの列がインデックスを作成したい PDF ドキュメントのファイル名であるデータベースを Solr にインデックスを作成させようとしています。私の構成は次のようになります。

<dataConfig>
 <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly="true"/>
 <dataSource name="ds-file" type="BinFileDataSource"/>
 <document name="documents">
   <entity name="document" dataSource="ds-db" query="select * from documents">
     <entity processor="TikaEntityProcessor" url="/some/path/${document.filename}" dataSource="ds-file" format="text">
       <field column="text" />
     </entity>
   </entity>
 </document>
</dataConfig>

トランクからSolrを使用しています(先週の時点で)。インポート プロセスはエラーなしで完了し、データベースから列を取得しますが、PDF ファイルのコンテンツは取得しません。PDF ファイルにアクセスしようとしているのは間違いありません。間違ったパス名を指定すると、問題が発生します。ただし、約 40 ミリ秒で完了するため、PDF のインデックス作成を試みているようには見えませんが、 を介して PDF をインポートすると、ExtractingRequestHandlerインデックス作成に約 11 秒かかります。

example-DIH で tika の例も試しましたが、それも何もインデックス化されていないようです。私は何か間違ったことをしていますか、それともこれはまだ機能していませんか?

OSX 10.6.3 で Java 1.6.0_20 を実行しています。

(私はすでにこれを solr-user メーリング リストに投稿しましたが、回答が得られなかったことに注意してください。)

4

1 に答える 1

2

solr-userメーリングリストの誰かが答えを持っていました:http://lucene.472066.n3.nabble.com/TikaEntityProcessor-not-working-tp856965p867572.html

基本的に、バージョン0.6以降に導入されたApache Tikaにはバグがあり、現在Solrのトランクにある0.8スナップショットにはまだ存在しているようです。Tika 0.6(http://archive.apache.org/dist/lucene/tika/から)をダウンロードし、tika-core-0.6.jarとtika-parsers-0.6.jarをパスにコピーすると、問題が修正されました。

于 2010-06-04T18:40:16.127 に答える