tika1.2 で solr3.6 を使用していますが、pdf ファイルをアップロードできません。まず、solr をインストールし、exampledocs からいくつかの *.xml ファイルをアップロードします。このファイルは、この URL で検索できましhttp://localhost:8983/solr/select/?q=solr
た。次のステップでは、tika をインストールして pdf および doc ファイルをアップロードしますが、機能しません。次の内容は、「example/solr/conf/solrconf.xml」ファイルにあります。
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults"><str name="fmap.content">text</str><str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<str name="tika.config">tika-data-config.xml</str>
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>`
ファイル「example/solr/conf/tika-data-config.xml」には、次の内容があります。
<dataConfig>
<dataSource name="bin" type="BinFileDataSource" />
<document>
<entity name="f" dataSource="null" rootEntity="false" processor="FileListEntityProcessor" transformer="TemplateTransformer" baseDir="/home/ubuntu-user/Documents" fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)" onError="skip" recursive="true">
<field column="fileAbsolutePath" name="path" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastmodified" /><entity name="tika-test" dataSource="bin" processor="TikaEntityProcessor" url="${f.fileAbsolutePath}" format="text" onError="skip">
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
</entity>
この行をコンソールに入れると
curl http://localhost:8983/solr/update/extract?literal.id=doc2&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@test.pdf"
私はこの出力を得る
<?xml version="1.0" encoding="UTF-8"?>
<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">183</int>
</lst>
</response>
しかし、solrでコンテンツを検索できません。この URL:http://localhost:8983/solr/browse
を参照すると、新しいエントリが表示されますが、コンテンツは表示されません。
また、solr と tika サーバーを開始しました。
java -jar start.jar
java -jar tika-server-1.2.jar
誰でも私を助けることができますか?